Une page peut être visitée par Googlebot sans jamais finir dans l'index. Google reste libre de ne pas stocker une URL s'il la juge bloquée techniquement, trop pauvre pour répondre à une recherche, ou redondante avec une autre page du site. Les causes les plus fréquentes sont une balise `noindex`, une directive `Disallow` dans le robots.txt, une canonicalisation qui pointe ailleurs, ou un contenu trop mince. La première chose à faire reste de lire le motif exact dans le rapport Indexation des pages de Google Search Console : il nomme précisément la raison de l'exclusion.
Notez qu'être visité et être indexé sont deux étapes différentes. Pour le détail de cette frontière, voyez la différence entre crawl et indexation. Ici, on s'intéresse au cas où le crawl a bien eu lieu mais où l'indexation ne suit pas.
Les blocages techniques qui interdisent l'indexation
Certains signaux disent explicitement à Google de ne pas indexer. Ils sont volontaires dans bien des cas, et accidentels dans d'autres. Les plus courants :
- une balise meta `noindex` (ou un en-tête HTTP `X-Robots-Tag: noindex`) sur la page ;
- une URL canonique qui désigne une autre page comme version de référence ;
- une directive `Disallow` dans le robots.txt qui empêche le rendu du contenu ;
- un code de réponse autre que `200 OK` (redirection en chaîne, `404`, `5xx`) ;
- une page accessible uniquement après une action JavaScript que le robot ne déclenche pas.
Le robots.txt mérite une attention à part : il pilote l'accès, pas directement l'index, et un mauvais réglage produit des effets contre-intuitifs. Pour ce point précis, voyez comment le robots.txt influence le référencement.
Le piège du noindex oublié
Un `noindex` posé pendant une recette, puis laissé en place lors de la mise en production, condamne silencieusement une page. Personne ne reçoit d'alerte : la page se charge normalement pour les visiteurs, mais reste hors de l'index pendant des mois.
Quand Google choisit de ne pas indexer
Même sans blocage, Google peut décider qu'une URL ne mérite pas une place dans l'index. Trois situations reviennent souvent.
Un contenu jugé insuffisant. Une page qui n'apporte presque rien d'unique, ou qui n'apporte pas de réponse claire à une intention de recherche, est souvent classée comme explorée et non indexée. Elle a été lue, mais écartée.
Un doublon avec une autre URL. Quand plusieurs pages se ressemblent fortement, Google retient une version et range les autres comme alternatives. Il évite ainsi d'engorger son index avec des contenus quasi identiques.
Une page introuvable. Une page orpheline, déconnectée du maillage interne et sans aucun lien entrant, n'envoie aucun signal de découverte ni de popularité. Elle peut rester ignorée longtemps, même si elle est techniquement parfaite.
En pratique
Un site marchand génère une page par combinaison de filtres (couleur, taille, tri). Des milliers d'URL quasi identiques apparaissent, Google n'en indexe qu'une poignée et signale les autres comme doublons. Restreindre ces variantes au crawl, et canoniser vers la page de catégorie, clarifie le signal.
Diagnostiquer avant de corriger
Le réflexe utile n'est pas de réindexer en force, mais de comprendre pourquoi la page est exclue. La marche à suivre :
- ouvrir le rapport Indexation des pages dans Search Console et lire le motif d'exclusion ;
- inspecter l'URL concernée pour voir le code de réponse, la canonique retenue et la présence d'un `noindex` ;
- vérifier que la page reçoit au moins un lien interne depuis une page elle-même indexée ;
- confronter le contenu à l'intention de recherche visée, et l'enrichir s'il est trop court.
Une page volontairement hors index n'est pas un problème : toutes les pages n'ont pas vocation à apparaître dans les résultats, comme l'explique la question de savoir s'il faut indexer toutes les pages. Le vrai sujet, ce sont les pages stratégiques exclues par accident. Lever ces blocages relève souvent du diagnostic technique SEO, où chaque motif d'exclusion se traite à sa racine plutôt qu'au symptôme.
