Indexer l'intégralité d'un site est rarement une bonne idée. Une page mérite l'index quand elle apporte quelque chose à un internaute arrivant depuis un moteur de recherche : un contenu unique, une fiche utile, une réponse claire. Les pages techniques ou redondantes (remerciement, résultats de recherche interne, combinaisons de filtres, contenus dupliqués) n'ont aucune raison d'y figurer. Trier ce qui doit être indexé, c'est protéger la visibilité des pages qui comptent vraiment.
Pourquoi tout indexer dessert le site
Un index trop gonflé, qu'on appelle parfois index bloat, envoie un signal de qualité moyenne sur l'ensemble du domaine. Quand des centaines d'URL indexées ne reçoivent aucun clic, le moteur dépense des ressources à explorer des pages sans intérêt, au détriment de celles qui méritent d'être revisitées souvent. Mieux vaut cinquante pages bien positionnées que cinq cents pages fantômes qui encombrent les résultats.
La logique de fond touche à l'exploration : le nombre de pages qu'un robot accepte de parcourir n'est pas illimité. Pour comprendre ce mécanisme côté capacité d'exploration, voir l'impact du budget de crawl sur un site. Indexer reste une étape distincte du simple parcours des URL : la nuance est détaillée dans la différence entre crawl et indexation.
À retenir
La question n'est pas combien de pages sont indexées, mais combien rapportent du trafic qualifié. Une page indexée qui ne reçoit jamais de visite organique est une page à réévaluer.
Quelles pages garder, lesquelles exclure
Le tri repose sur un critère simple : la page répond-elle à une intention de recherche réelle ? Si oui, elle reste indexable. Sinon, elle sort de l'index.
Pages à conserver dans l'index :
- les pages de contenu unique (articles, guides, pages de service)
- les fiches produit ou prestation avec une description propre
- les pages catégories qui structurent une offre et ciblent une requête
Pages à exclure le plus souvent :
- les pages de remerciement ou de confirmation après formulaire
- les résultats de recherche interne et les combinaisons de filtres
- le panier, le compte client, les pages de connexion
- les versions dupliquées (paramètres de tri, pagination sans contenu propre)
Le piège classique
Un catalogue e-commerce avec filtres couleur, taille et prix peut générer des milliers d'URL quasi identiques. Laisser ces combinaisons s'indexer noie les vraies pages catégories sous des doublons sans valeur.
Choisir le bon outil d'exclusion
Exclure une page ne se fait pas au hasard : le moyen dépend de l'objectif. Une balise `noindex` retire une page de l'index tout en laissant le robot la parcourir, ce qui convient à une page déjà connue qu'on veut sortir des résultats. Une directive dans le fichier `robots.txt` bloque l'exploration en amont, mais ne garantit pas la désindexation d'une URL déjà connue : ce point est traité dans le rôle du fichier robots.txt sur le référencement.
L'erreur fréquente consiste à combiner les deux maladroitement : bloquer une URL dans `robots.txt` empêche le robot de lire la balise `noindex` qu'elle contient, si bien que la page peut rester affichée sans description. Pour retirer durablement une page de l'index, on la laisse explorable et on s'appuie sur la balise `noindex`.
Un audit d'indexation, qui cartographie ce qui doit ou non figurer dans l'index, fait partie des chantiers couverts par notre accompagnement en SEO technique. La bonne mesure n'est jamais le volume d'URL dans l'index, mais leur capacité à servir une recherche : une page qui n'aide personne venant d'un moteur n'a pas sa place dans les résultats.
En pratique
Avant d'exclure massivement, vérifiez dans la Search Console les pages indexées sans clic depuis plusieurs mois. Elles forment la première liste de candidates à un `noindex` ciblé.
