Easy-SEO Agency
Crawling & Indexation

Qu'est-ce que le crawl par Google ?

Le crawl par Google est l'exploration automatique des pages web par Googlebot, qui suit les liens pour découvrir et relire le contenu d'un site.

Première étape avant l'indexation · Réalisée par des robots suivant les liens · Conditionnée par l'accès technique au site

3 min de lectureMis à jour le 30 mai 2026

Le crawl, c'est l'exploration du web par les robots de Google, appelés Googlebot. Ces programmes parcourent les pages, suivent les liens d'une page à l'autre et collectent le contenu pour le moteur. Le crawl est la toute première étape du référencement naturel : avant qu'une page puisse être analysée, comprise ou affichée dans les résultats, encore faut-il que Googlebot l'ait visitée. Sans exploration, pas de présence possible dans le moteur.

Comment Googlebot explore un site

Googlebot fonctionne par découverte de proche en proche. Il part d'une liste d'URL déjà connues, charge chaque page, en lit le code HTML, puis récupère les liens internes et externes qu'elle contient pour alimenter sa file d'attente. Une page reliée par des liens clairs depuis le reste du site sera trouvée vite. Une page orpheline, sans aucun lien entrant, risque de rester invisible aux robots.

Les principales portes d'entrée que Googlebot utilise sont :

  • les liens internes entre vos pages,
  • les liens externes pointant vers votre site,
  • le sitemap XML que vous déclarez,
  • les URL déjà explorées lors de passages précédents.

À chaque visite, le robot vérifie aussi si une page connue a changé depuis son dernier passage, pour décider s'il faut la relire. Une page mise à jour souvent sera revisitée plus fréquemment qu'une page figée depuis longtemps.

À retenir

Le crawl ne juge pas la qualité ni le positionnement d'une page. Il se contente de la découvrir et de la lire. Le tri vient après, à l'indexation puis au classement.

Crawl, indexation, classement : trois étapes distinctes

Il est facile de confondre le crawl avec l'indexation. Le crawl, c'est la lecture de la page par le robot. L'indexation, c'est la décision de l'enregistrer dans la base de données de Google. Une page peut très bien être explorée sans jamais être indexée, par exemple si Google la juge redondante ou de faible valeur. Pour distinguer précisément ces deux notions, voir la différence entre crawl et indexation.

De la même manière, le volume de pages que Google accepte de visiter sur un site dans un temps donné, ce qu'on appelle le budget de crawl, est un sujet à part entière, traité dans l'impact du budget de crawl. Sur cette page, on reste sur la définition même de l'exploration.

Un exemple concret

Vous publiez un nouvel article et vous le reliez depuis votre page d'accueil et depuis deux pages de catégorie déjà bien explorées. Lors de son prochain passage sur ces pages parentes, Googlebot trouve le lien vers l'article, le suit, charge la nouvelle URL et la lit. À l'inverse, si vous laissez cet article sans aucun lien interne et sans l'ajouter au sitemap, le robot n'a aucun chemin pour y arriver : la page existe pour vos visiteurs directs, mais reste hors de portée de l'exploration.

Le piège classique

Bloquer une page dans le robots.txt empêche Googlebot de la lire, mais ne garantit pas qu'elle disparaisse des résultats. Confondre blocage de crawl et désindexation est l'une des erreurs techniques les plus courantes.

Ce qui facilite ou freine l'exploration

Plusieurs facteurs techniques pèsent directement sur la capacité de Googlebot à parcourir un site. Un serveur lent ou qui renvoie des erreurs ralentit le robot et réduit le nombre de pages lues par visite. Une architecture profonde, où certaines pages se trouvent à de nombreux clics de l'accueil, retarde leur découverte. Un fichier robots.txt mal réglé peut au contraire fermer la porte à des sections entières du site.

À l'inverse, un sitemap XML propre, un maillage interne logique et des temps de réponse rapides aident le robot à couvrir le site efficacement. Ces réglages relèvent de l'optimisation technique du référencement, qui prépare le terrain pour que l'exploration se fasse sans obstacle.

En pratique

La Search Console de Google permet de demander manuellement l'exploration d'une URL précise et de consulter la date du dernier passage de Googlebot. Utile pour vérifier qu'une page récente a bien été vue.

Comprendre le crawl, c'est comprendre que la visibilité commence par l'accessibilité. Tant que Googlebot ne peut pas atteindre et lire une page, le reste du travail SEO reste sans effet. Pour explorer les autres aspects de l'exploration et de la mise en ligne dans les résultats, le reste de la catégorie Crawling et indexation détaille chaque étape.

Une question plus précise sur votre site ?

On échange 30 minutes sur votre situation et on vous remet un plan d'action SEO priorisé. Sans engagement.

DANS LA MÊME THÉMATIQUE

Autres questions sur « Crawling & Indexation »

Besoin d'un accompagnement sur ce sujet ? Découvrez la prestation correspondante.