Conseils

Audit de site en ligne : ce que Google voit vraiment quand il scanne votre site

Audit de site en ligne : comprenez ce que le robot de Google voit quand il parcourt votre site — et ce qui l'empêche de vous classer correctement.

Enguerrand Quinard09 mars 20268 min

Audit de site en ligne, ce que Google voit vraiment quand il scanne votre site

Quand vous regardez votre site web, vous voyez du texte, des images, des couleurs, des boutons. Quand Google le scanne, il voit quelque chose de très différent. Comprendre cette différence est la clé d'un audit de site en ligne efficace — parce que les problèmes qui pénalisent votre référencement sont souvent invisibles à l'œil humain.

Comment Google parcourt votre site

Google utilise un programme automatisé appelé Googlebot pour explorer le web. Ce robot :

Suit les liens pour découvrir vos pages — il commence par votre page d'accueil, suit tous les liens qu'il y trouve, puis suit les liens dans ces pages, et ainsi de suite
Télécharge le HTML de chaque page qu'il trouve
Exécute le JavaScript pour rendre les pages dynamiques (comme un navigateur, mais moins efficacement)
Analyse le contenu — texte, balises, structure, liens internes et externes
Stocke les informations dans son index pour les restituer lors des recherches

Ce processus s'appelle le crawl (exploration) et l'indexation. Une page non crawlée ne peut pas être indexée. Une page indexée incorrectement ne peut pas se positionner correctement.

Ce que Google voit (et ce qu'il ne voit pas)

Ce que Google voit parfaitement

Le texte brut de vos pages. Tout le contenu textuel de votre HTML est analysé : titres, paragraphes, listes, textes des boutons, textes alternatifs des images (attribut alt).

La structure de vos balises. Google distingue le H1 du H2, le titre de la balise `<title>` de celui dans `<h1>`. Cette hiérarchie lui indique ce qui est important sur votre page.

Vos liens internes. Chaque lien dans votre HTML est suivi et évalué. Le texte du lien (l'ancre) est un signal important sur le sujet de la page vers laquelle vous pointez.

Les métadonnées. Balise title, meta description, balise canonical, attributs hreflang, balise robots — tout ce qui se trouve dans le `<head>` de votre page.

Le balisage Schema.org. Les données structurées en JSON-LD ou microdata sont lues et utilisées pour qualifier votre contenu (LocalBusiness, Product, Article, FAQ...).

Votre fichier robots.txt. C'est la première chose que Google lit avant de crawler votre site. Si ce fichier interdit le crawl de certaines pages, Google ne les visitera pas.

Ce que Google voit avec difficulté

Le JavaScript complexe. Google peut exécuter le JavaScript, mais de façon retardée et moins complète qu'un navigateur. Un site dont le contenu principal est rendu uniquement en JavaScript (React, Vue, Angular sans SSR) peut être partiellement indexé — le contenu n'est visible qu'après exécution du JS, et Google peut passer à côté.

Les iframes. Le contenu chargé dans une iframe depuis un autre domaine n'est généralement pas attribué à votre page.

Les images sans attribut alt. Google peut analyser les images avec des techniques d'IA, mais l'attribut alt reste le signal le plus fiable sur le sujet d'une image.

Ce que Google ne voit pas du tout

Les éléments purement visuels sans équivalent textuel. Une information transmise uniquement par la couleur, la taille ou la position d'un élément graphique est invisible pour Googlebot.

Le contenu derrière une connexion. Les pages accessibles uniquement après authentification ne sont pas indexées.

Le texte dans les images. Un titre écrit dans une image JPG plutôt qu'en HTML n'est pas lu comme du texte par Google.

Les 6 erreurs techniques que Google détecte lors du crawl

1. Le blocage involontaire du crawl

C'est la plus critique : votre fichier robots.txt ou une balise meta robots interdisent à Google d'accéder à vos pages. Cela arrive parfois après une migration, une mise à jour du CMS, ou une modification faite par erreur.

Comment vérifier : tapez `votredomaine.fr/robots.txt` dans votre navigateur. Si vous voyez `Disallow: /`, votre site entier est bloqué. Dans Google Search Console > Outils > Test des robots.txt, vous pouvez tester si des URL spécifiques sont accessibles.

2. Les erreurs 404 sur des pages importantes

Quand Google suit un lien vers une page qui renvoie une erreur 404 (page introuvable), il note que cette page n'existe plus. Si des liens internes ou externes pointent vers des pages supprimées, vous perdez de l'autorité SEO.

Comment vérifier : Google Search Console > Indexation > Pages > "Introuvable (404)".

3. Les redirections en chaîne

Quand une URL redirige vers une autre URL qui redirige elle-même vers une troisième URL, Google suit ces chaînes mais y perd de "l'énergie" de crawl. Au-delà de 3 redirections en chaîne, certaines pages peuvent ne pas être complètement crawlées.

Comment vérifier : utilisez un outil de vérification de redirections en ligne. Vérifiez que vos redirections 301 pointent directement vers la destination finale.

4. Le contenu dupliqué

Si la même page est accessible via plusieurs URLs (avec et sans www, avec et sans slash final, en HTTP et HTTPS), Google ne sait pas quelle version indexer. L'autorité se dilue entre les versions.

Comment vérifier : tapez dans Google `site:votredomaine.fr "texte unique de votre page d'accueil"`. Si plusieurs URLs apparaissent avec le même contenu, vous avez un problème de duplication. La balise canonical (`<link rel="canonical">`) doit pointer vers la version de référence.

5. La profondeur de crawl excessive

Google alloue un budget de crawl à chaque site — un nombre limité de pages qu'il crawle par session. Si votre site a des pages trop profondes dans l'architecture (accessibles uniquement en cliquant 6 ou 7 fois depuis la page d'accueil), elles peuvent ne pas être crawlées du tout.

Règle pratique : aucune page importante ne devrait être à plus de 3 clics de la page d'accueil.

6. Le JavaScript non-rendu correctement

Si votre site utilise un framework JavaScript sans rendu côté serveur (SSR) ou génération statique, Google peut voir une page vide ou partielle. Les sites en NextJS avec SSR ou SSG évitent ce problème — c'est l'une des raisons pour lesquelles nous recommandons NextJS pour les sites professionnels.

Comment vérifier : dans Google Search Console > Inspection d'URL, entrez une de vos pages importantes. Cliquez "Afficher la page crawlée" pour voir exactement ce que Google a vu lors de sa dernière visite. Si votre contenu principal est absent, vous avez un problème de rendu JavaScript.

L'audit technique depuis la perspective de Googlebot

Un audit de site efficace commence par se mettre à la place de Googlebot. Les questions à poser :

Googlebot peut-il accéder à toutes mes pages importantes ? (vérification robots.txt + Search Console)
Ces pages sont-elles indexées ? (vérification `site:` + Search Console > Indexation)
Le contenu visible par Googlebot correspond-il à ce que l'utilisateur voit ? (inspection d'URL dans Search Console)
Les liens internes distribuent-ils l'autorité vers les pages importantes ? (audit du maillage interne)
Les balises envoient-elles les bons signaux pour les bonnes pages ? (vérification title, H1, canonical)

Ces questions structurent l'essentiel de l'audit technique que nous réalisons pour nos clients. Pour les vérifier vous-même, notre méthode d'audit site web gratuit en 10 minutes détaille les étapes pratiques avec les outils disponibles.

Et si vous voulez qu'on analyse ce que Google voit sur votre site spécifiquement, demandez un diagnostic — on utilise Google Search Console et les outils officiels pour vous donner une vision précise de votre situation d'indexation.

Pour en savoir plus sur les recommandations officielles de Google sur l'exploration et l'indexation, les Google Search Essentials sont la référence.

Questions fréquentes

Pourquoi mon site apparaît-il bien dans mon navigateur mais pas dans Google ?

Votre navigateur voit votre site après exécution complète du JavaScript et chargement de toutes les ressources. Google peut voir une version différente — notamment si votre contenu est rendu uniquement en JavaScript client-side. L'outil d'inspection d'URL dans Search Console vous montre exactement ce que Google a vu.

Mon site met du temps à charger mais il est bien indexé — est-ce que la vitesse affecte mon classement ?

Oui, indirectement. La vitesse est un facteur de classement officiel depuis 2021 via les Core Web Vitals. Un site lent peut être indexé mais pénalisé dans ses positions. Par ailleurs, un site très lent consomme plus de budget de crawl, ce qui peut limiter la fréquence à laquelle Google le revisite.

Comment savoir si Google a crawlé une page récemment ?

Dans Google Search Console > Inspection d'URL, entrez l'URL de la page. Vous verrez la date du dernier crawl de Googlebot. Si la page n'a pas été crawlée depuis plusieurs semaines et que vous avez fait des modifications importantes, vous pouvez demander une ré-indexation via l'interface.

Nos autres articles de blog

Continuez votre lecture avec nos derniers conseils.

SEOAudit SEO Strasbourg : la checklist avant de payer une agence

Avant de signer avec une agence SEO à Strasbourg, vérifiez les points techniques, contenus et business qui rendent un audit vraiment exploitable.

SEOAgence SEO ou consultant SEO à Strasbourg : que choisir ?

Agence SEO, consultant SEO ou freelance SEO à Strasbourg : les différences concrètes pour choisir le bon accompagnement selon votre objectif.

SEOComparatif 2026 : quelle est la meilleure agence web dans le Bas-Rhin ?

Comparatif 2026 des meilleures agences web du Bas-Rhin : technologies, SEO, accompagnement, prix et notes détaillées. Découvrez pourquoi WebGenius se démarque pour les TPE/PME alsaciennes.