Qu'est-ce que le crawl par Google ?

Question

Accepted Answer

Le crawl, c'est l'exploration du web par les robots de Google, appelés Googlebot. Ces programmes parcourent les pages, suivent les liens d'une page à l'autre et collectent le contenu pour le moteur. Le crawl est la toute première étape du référencement naturel : avant qu'une page puisse être analysée, comprise ou affichée dans les résultats, encore faut-il que Googlebot l'ait visitée. Sans exploration, pas de présence possible dans le moteur.

Comment Googlebot explore un site

Googlebot fonctionne par découverte de proche en proche. Il part d'une liste d'URL déjà connues, charge chaque page, en lit le code HTML, puis récupère les liens internes et externes qu'elle contient pour alimenter sa file d'attente. Une page reliée par des liens clairs depuis le reste du site sera trouvée vite. Une page orpheline, sans aucun lien entrant, risque de rester invisible aux robots.

Les principales portes d'entrée que Googlebot utilise sont :

les liens internes entre vos pages,
les liens externes pointant vers votre site,
le sitemap XML que vous déclarez,
les URL déjà explorées lors de passages précédents.

À chaque visite, le robot vérifie aussi si une page connue a changé depuis son dernier passage, pour décider s'il faut la relire. Une page mise à jour souvent sera revisitée plus fréquemment qu'une page figée depuis longtemps.

Crawl, indexation, classement : trois étapes distinctes

Il est facile de confondre le crawl avec l'indexation. Le crawl, c'est la lecture de la page par le robot. L'indexation, c'est la décision de l'enregistrer dans la base de données de Google. Une page peut très bien être explorée sans jamais être indexée, par exemple si Google la juge redondante ou de faible valeur. Pour distinguer précisément ces deux notions, voir la différence entre crawl et indexation.

De la même manière, le volume de pages que Google accepte de visiter sur un site dans un temps donné, ce qu'on appelle le budget de crawl, est un sujet à part entière, traité dans l'impact du budget de crawl. Sur cette page, on reste sur la définition même de l'exploration.

Un exemple concret

Vous publiez un nouvel article et vous le reliez depuis votre page d'accueil et depuis deux pages de catégorie déjà bien explorées. Lors de son prochain passage sur ces pages parentes, Googlebot trouve le lien vers l'article, le suit, charge la nouvelle URL et la lit. À l'inverse, si vous laissez cet article sans aucun lien interne et sans l'ajouter au sitemap, le robot n'a aucun chemin pour y arriver : la page existe pour vos visiteurs directs, mais reste hors de portée de l'exploration.

Ce qui facilite ou freine l'exploration

Plusieurs facteurs techniques pèsent directement sur la capacité de Googlebot à parcourir un site. Un serveur lent ou qui renvoie des erreurs ralentit le robot et réduit le nombre de pages lues par visite. Une architecture profonde, où certaines pages se trouvent à de nombreux clics de l'accueil, retarde leur découverte. Un fichier robots.txt mal réglé peut au contraire fermer la porte à des sections entières du site.

À l'inverse, un sitemap XML propre, un maillage interne logique et des temps de réponse rapides aident le robot à couvrir le site efficacement. Ces réglages relèvent de l'optimisation technique du référencement, qui prépare le terrain pour que l'exploration se fasse sans obstacle.

Comprendre le crawl, c'est comprendre que la visibilité commence par l'accessibilité. Tant que Googlebot ne peut pas atteindre et lire une page, le reste du travail SEO reste sans effet. Pour explorer les autres aspects de l'exploration et de la mise en ligne dans les résultats, le reste de la catégorie Crawling et indexation détaille chaque étape.

Qu'est-ce que le crawl par Google ?

Comment Googlebot explore un site

Crawl, indexation, classement : trois étapes distinctes

Un exemple concret

Ce qui facilite ou freine l'exploration

Une question plus précise sur votre site ?

Autres questions sur « Crawling & Indexation »

Qu'est-ce que le crawl par Google ?Qu'est-ce que le crawl par Google ?

Comment Googlebot explore un site

Crawl, indexation, classement : trois étapes distinctes

Un exemple concret

Ce qui facilite ou freine l'exploration

Une question plus précise sur votre site ?

Autres questions sur « Crawling & Indexation »

Le service Easy-SEO associé

Qu'est-ce que le crawl par Google ?