Le crawl et l'indexation sont deux étapes successives et distinctes du parcours d'une page dans Google. Le crawl est l'exploration : Googlebot suit les liens, récupère le HTML et lit le contenu. L'indexation vient ensuite : le moteur analyse ce qu'il a crawlé, juge s'il vaut la peine d'être conservé, puis le range dans son index pour le rendre éligible au classement. Une page peut donc être crawlée sans jamais être indexée, et confondre les deux étapes fait perdre un temps précieux en diagnostic.
Deux étapes, deux logiques
Le crawl répond à une question mécanique : Googlebot peut-il atteindre et lire la page ? Il dépend de l'accessibilité technique, des liens entrants, du `robots.txt` et des ressources que Google accepte d'allouer au site. L'indexation répond à une question de jugement : ce contenu mérite-t-il une place dans l'index ? Google y évalue la qualité, l'originalité, les directives `noindex` et les éventuels doublons.
Cette séparation a une conséquence concrète : agir sur l'un n'agit pas forcément sur l'autre. Améliorer le maillage interne aide au crawl, mais une page mince restera écartée de l'index quand même. À l'inverse, un contenu solide ne sera jamais indexé si Googlebot ne parvient pas à l'atteindre.
Concrètement
Vérifier qu'une page est crawlée et vérifier qu'elle est indexée sont deux contrôles différents. Le rapport d'inspection d'URL de la Search Console distingue clairement l'exploration de la couverture d'index.
Crawlée mais pas indexée : les causes fréquentes
Une page lue par Googlebot peut rester hors de l'index pour plusieurs raisons :
- une balise `noindex` dans le HTML ou l'en-tête HTTP qui interdit l'indexation ;
- un contenu jugé de faible valeur ou trop proche d'une autre page (quasi-duplicata) ;
- une URL canonique qui pointe ailleurs, signalant à Google une version préférée ;
- un signal de qualité globale du site insuffisant pour justifier le stockage.
Prenez une fiche produit en rupture, copiée à l'identique sur trois variantes de couleur. Google crawle les trois mais n'en garde qu'une dans l'index : les deux autres sont vues comme des doublons. Ici, le problème n'est pas l'accès, c'est la décision d'indexation. Le motif exact (« Explorée, actuellement non indexée », « Détectée, actuellement non indexée ») oriente le correctif, et c'est précisément l'angle développé dans pourquoi certaines pages ne sont jamais indexées.
Le piège classique
Bloquer une URL dans le `robots.txt` n'empêche pas son indexation : Google peut l'inscrire dans l'index sans en lire le contenu, à partir des liens qui pointent vers elle. Pour exclure réellement une page, c'est `noindex` qu'il faut utiliser, sur une page que Googlebot a le droit de crawler.
Pourquoi la distinction change votre diagnostic
Savoir à quelle étape ça coince oriente tout le travail technique. Si la page n'est même pas crawlée, on regarde du côté de l'accès : profondeur de clic, pages orphelines, erreurs 4xx/5xx, directives de blocage. Le crawl s'inscrit aussi dans une ressource limitée que Google répartit, sujet traité dans l'impact du budget de crawl. Si la page est crawlée mais pas indexée, le chantier devient éditorial : renforcer le contenu, supprimer les doublons, clarifier les canoniques.
Deux leviers restent fiables pour favoriser l'indexation d'une page stratégique : un sitemap XML propre et à jour, et un maillage interne qui relie la page au reste du site avec des ancres descriptives. Ils signalent à la fois l'existence de l'URL et son importance relative. Sur l'exploration elle-même, le rôle exact de Googlebot dans le crawl précise comment cette première étape fonctionne.
Cette séparation crawl/indexation structure une bonne part du travail de SEO technique : on sécurise d'abord l'accès, puis on s'assure que chaque page utile est jugée digne de l'index. Quand un audit montre des pages explorées mais absentes des résultats, c'est rarement un hasard de plus à attendre, c'est un signal à lire et à corriger.
