Easy-SEO Agency
Référencement technique

Sitemap XML, robots.txt, canonicals : le trio technique souvent négligé

Trois fichiers à 100 lignes. Trois fichiers qui décident si Google indexe votre site correctement. On fait le tour des bonnes pratiques 2026.

Par Romain D., Co-fondateur · Consultant SEO senior9 min de lecture

Pourquoi ce trio est critique

Le sitemap XML, le robots.txt et les canonicals sont les 3 instruments principaux qui pilotent ce que Google peut crawler, doit indexer, et considère comme l'URL de référence. Une mauvaise configuration sur l'un des 3 peut désindexer 50 % de votre site sans alerte évidente. On a vu ça arriver à des clients dont la migration avait poussé un robots.txt « Disallow: / » par erreur.

Sitemap XML : les règles à ne pas violer

Le sitemap est une suggestion d'URLs à indexer. Quelques règles simples mais souvent ratées :

  • URL absolues uniquement, avec le protocole (https://)
  • Une seule URL canonique par contenu — pas de duplication entre /page et /page/ par ex.
  • Pas de pages noindex dans le sitemap (incohérence forte → signal négatif)
  • Date de dernière modification (lastmod) précise — Google s'en sert pour prioriser les recrawl
  • Limite : 50 000 URLs et 50 Mo par fichier. Au-delà, sitemap index multi-fichiers.

robots.txt : minimaliste mais essentiel

Le robots.txt indique quels chemins NE PAS crawler. Pas quoi indexer (ça c'est le rôle de la balise meta robots ou du header X-Robots-Tag). Confusion classique : « j'ai mis ma page de remerciement en Disallow → elle n'est plus dans Google » → faux. Disallow empêche le crawl mais pas l'indexation par d'autres signaux.

Pour empêcher l'indexation, utiliser meta robots noindex (qui implique que le crawl soit autorisé pour que Google puisse lire la balise). Subtil mais déterminant.

Canonicals : éviter le duplicate content

La balise canonical signale à Google quelle URL est la version de référence quand plusieurs pages ont un contenu identique ou très proche (paginations, filtres, paramètres UTM). Sans canonical, Google peut indexer la mauvaise version et diluer le PageRank entre plusieurs URLs.

Erreur fréquente : canonical en boucle (page A canonique vers B, B canonique vers A) ou canonical vers une page noindex/404. Search Console remonte ces problèmes dans le rapport « Indexation des pages » sous « Page avec redirection » et « Autre page comme URL canonique ».

La checklist mensuelle Search Console

Tous les 1ers du mois, on consulte sur GSC :

  • Indexation des pages → onglet « Pas indexées » → identifier les nouvelles raisons
  • Sitemaps → vérifier que tous les sitemaps sont « Réussite » et que le delta indexed/submitted reste cohérent
  • Statistiques sur l'exploration → vérifier qu'on n'a pas explosé le budget de crawl

En résumé

Sitemap, robots, canonicals = 3 fichiers à connaître par cœur. Un audit sérieux les vérifie en premier. Une refonte sérieuse les anticipe avant la mise en ligne. Si vous avez un doute sur leur configuration actuelle, un audit technique en profondeur règle la question en 5 jours ouvrés.

Trustpilot

Les avis de nos clients seront affichés ici.