Optimiser le fichier robots.txt de votre WordPress

Lerobots txt wordpressestun fichier essentielquidicte aux robots des moteurs de rechercheles parties de votre siteà explorer ou à ignorer.Son optimisationpermet dediriger efficacement le « budget crawl »de Google, unestratégie crucialepour lesgrands sites e-commerce WordPresssouvent pénalisés par un crawl inefficace, garantissant ainsi quevos pages les plus importantessoientcorrectement indexéesetréférencées.

Points clés à retenir

  • Lefichier robots.txtguide les robots des moteurs de recherche sur votre site WordPress.
  • Uneoptimisation précisepermet degérer le budget crawl, indispensable pour lesgrands sites e-commerce.
  • Vous pouvezmodifier robots txtvia unplugin SEOou directement parFTP.
  • Desrègles de « Disallow »bien définies évitent debloquer indexation wordpressde pages non pertinentes.
  • Letest du robots.txtavec laGoogle Search Consoleestimpératifavant toute mise en production.

Qu’est-ce que le fichier robots.txtetpourquoi est-il crucial pour votre SEO WordPress?

Lefichier robots.txtestune simple instruction textuelleque vous placez à laracine de votre site web WordPress. Son rôle est decommuniquer avec les « user-agents », c’est-à-dire lesrobots d’exploration des moteurs de recherche(comme Googlebot pour Google, Bingbot pour Bing, etc.). Il leur indiquequelles parties de votre site ils sont autorisés à explorer(crawler) etquelles parties ils doivent ignorer.

Pour votresite WordPress, ce fichier est loin d’être anodin. Il est lapremière porte d’entréepour les robots. Si vous ne les guidez pas correctement, ils risquent deperdre du temps à explorer des pages sans intérêtpour le référencement, ou pire, dene pas trouver vos contenus les plus importants.

Unrobots.txt bien configuréest lapremière étapepourprendre le contrôle de votre visibilité sur Googleetoptimiser budget crawl.

Nicolas Buathier, Expert WordPress

L’enjeu n’est pas seulement debloquer indexation wordpressde certaines pages, mais deconcentrer l’effort d’exploration de Googlesur ce qui compte vraiment. C’est ce que l’on appelle l’optimisation du budget crawl.

Comment le robots.txt influence-t-il votre SEO WordPressetvotre budget crawl?

Chaque site web dispose d’unbudget crawl, c’est-à-dire lenombre de pages que les robots de Google sont prêts à explorersur votre site au cours d’une période donnée. Ce budget n’est pas infini et varie en fonction de lataille de votre site, de sapopularitéet de safréquence de mise à jour.

80%des sites ont un budget crawl sous-exploité
25%des pages WordPress sont inutiles au SEO
x2de pages utiles explorées avec un bon robots.txt

Pour unsite WordPress « classique »(blog, vitrine), le budget crawl est rarement un problème majeur. Mais pour lesgros sites e-commerce WordPressavec des milliers de produits, de catégories, de filtres de recherche et de pages générées dynamiquement, il devientabsolument critique.

Les enjeux du budget crawl pour l’e-commerce WordPress

Imaginez un site e-commerce avec 5000 produits. Si chaque produit a 10 variations (couleur, taille) et que les filtres génèrent des centaines de pages URL supplémentaires, lenombre total d’URL peut exploser. Sans unrobots.txtoptimisé, les robots vontperdre un temps précieuxà explorer des pages de filtres, des paniers d’achat, des pages de connexion ou des versions dupliquées de produits. Pendant ce temps, vosnouvelles fiches produitsou vospages de catégories stratégiquespourraientattendre des joursavant d’être explorées et indexées.

En utilisant lesbonnes directivesdans votrerobots.txt WordPress, vous pouvez :

  • Éviter le contenu dupliqué: Bloquer les robots d’accéder aux URL avec paramètres (tri, filtre) qui ne devraient pas être indexées.
  • Protéger les zones sensibles: Empêcher l’exploration des dossiers d’administration (/wp-admin/), des fichiers de plugins ou de thèmes.
  • Orienter les robots: Les inciter à se concentrer sur vos pages à forte valeur ajoutée (produits, catégories, articles de blog).
💡 Bon à savoir

Lerobots.txtne remplace pas la balise noindex. Un fichier robots.txtbloque le crawl, mais une page déjà indexée peut le rester. Pourdésindexer une page, utilisez la balise noindex (via un plugin SEO) et assurez-vous que lerobots.txtne bloque pas le crawl de cette page.

Où trouver et comment modifier le fichier robots.txtsur votresite WordPress?

Lefichier robots.txtest unfichier textesitué à laracine de votre installation WordPress. Si vous ne l’avez jamais créé, WordPress en génère unvirtuel par défaut. Ce fichier virtuel est très basique et ne contient souvent qu’une ligne pour le sitemap.

Modifier robots txtavec un plugin SEO (méthode recommandée)

Pour la plupart des utilisateurs de WordPress, laméthode la plus simple et la plus sûrepourmodifier robots txtest d’utiliser unplugin SEO comme Yoast SEO ou Rank Math. Ces plugins vous permettent d’éditer le fichier directementdepuis votre tableau de bord WordPress, sans avoir à manipuler de fichiers via FTP.

  • Yoast SEO: Allez dans SEO > Outils > Éditeur de fichiers.
  • Rank Math: Allez dans Rank Math > Réglages généraux > Éditer Robots.txt.

Si aucun fichier physique n’existe, ces plugins en créeront un pour vous. C’est la solution la plus accessible pourbloquer indexation wordpressde certains éléments sans risque de casser votre site.

Accès direct via FTP/SFTP ou cPanel(pour les experts)

Si vous êtes undéveloppeurou unutilisateur expérimenté, vous pouvezmodifier robots txtdirectement viaFTP/SFTP(avec un client comme FileZilla) ou via leGestionnaire de fichiers de votre cPanel.

  1. Connectez-vous à votre serveuravec vos identifiants FTP.
  2. Naviguez jusqu’au dossier racinede votre installation WordPress (souvent public_html ou www).
  3. Recherchez le fichier robots.txt. S’il n’existe pas, créez un nouveau fichier texte nommé robots.txt.
  4. Éditez le fichieravec un éditeur de texte simple (bloc-notes, Sublime Text, VS Code) etenregistrez vos modifications.
  5. Uploadez le fichiervers le serveur si vous l’avez créé ou modifié localement.
⚠️ Erreur fréquente

Ne modifiez jamais le fichier robots.txtsans unesauvegarde préalableou sans savoir exactement ce que vous faites. Uneerreur peut bloquer l’intégralité de votre sitedes moteurs de recherche !

Quelles sont les règles essentielles à incluredans votrefichier robots.txt WordPress?

Lefichier robots.txtutilise un ensemble dedirectives simplespour communiquer avec les robots. Voici les plus importantes et les plus courantes pour votrerobots txt wordpress:

Les directives fondamentales

  • User-agent:Spécifie le robotauquel s’appliquent les règles suivantes. User-agent: * signifie que les règles s’appliquent àtous les robots. Vous pouvez cibler des robots spécifiques (ex: User-agent: Googlebot).
  • Disallow: /chemin/Empêche les robotsd’explorer le répertoire ou le fichier spécifié. C’est la directive clé pourbloquer indexation wordpressde contenus non pertinents.
  • Allow: /chemin/(moins courant, mais utile) :Permet l’explorationd’un sous-répertoire ou d’un fichier dans un répertoire autrement « Disallow ». Utile pour des ressources spécifiques (fichiers JS ou CSS).
  • Sitemap: URL_de_votre_sitemap.xml: Indique aux moteurs de rechercheoù trouver votre sitemap XML, ce qui facilite la découverte de toutes vos pages importantes.

Exemple de robots.txt WordPress optimisé

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-signup.php
Disallow: /wp-activate.php
Disallow: /wp-comments-post.php
Disallow: /xmlrpc.php
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /trackback/
Disallow: /*/feed/$
Disallow: /*/comment-page-*
Disallow: /*?author=*
Disallow: /*?replytocom=*
Disallow: /*/embed/$
Disallow: /tag/
Disallow: /category/*/page/
Disallow: /author/
Disallow: /search/
Disallow: /page/*/

Allow: /wp-content/uploads/

Sitemap: https://www.votre-site.fr/sitemap_index.xml

Explication des directives courantes

🛡️

Dossiers sensibles

Disallow: /wp-admin/ et /wp-includes/ empêchent l’accès aux zones d’administration et aux fichiers système de WordPress. Ce n’est pas pour des raisons de sécurité, mais pour éviter l’indexation de pages sans intérêt SEO.

🚫

Contenu technique

Disallow: /wp-content/plugins/ et /wp-content/themes/ bloquent les fichiers des extensions et des thèmes. Sauf si un plugin crée des pages publiques importantes, il est préférable de ne pas les indexer.

🗑️

Pages inutiles

Disallow: /feed/, /comments/feed/, /tag/, /author/, /search/ : Ces pages génèrent souvent du contenu dupliqué ou de faible valeur pour le SEO. Les bloquer permet d’optimiser budget crawl.

💡 Bon à savoir

La ligne Allow: /wp-content/uploads/ est cruciale. Elle permet aux robots d’accéder à vos images et autres médias, qui sont essentiels pour le référencement visuel de votre site WordPress.

Comment optimiser votre fichier robots.txtpour unsite e-commerce WordPress?

L’optimisation du robots.txtpour un site e-commerce est uncas d’usage avancéetextrêmement importantpouroptimiser budget crawl. Les sites e-commerce génèrent naturellement un grand nombre de pages peu utiles au SEO mais gourmandes en crawl.

Blocage des pages de panier, commande et compte client

Ces pages sont essentielles pour l’utilisateur mais n’ontaucune valeur SEO. Elles ne doivent jamais être indexées.

Disallow: /panier/
Disallow: /commande/
Disallow: /mon-compte/
Disallow: /checkout/
Disallow: /cart/
Disallow: /my-account/
Disallow: /wishlist/
Disallow: /compare/

Gestion des URL à paramètres (filtres, tri, pagination)

C’est l’un des plus gros problèmespour les sites e-commerce. Les filtres de produits (par couleur, taille, prix) ou les options de tri génèrent desmilliers d’URL uniquesqui sont souvent desdoublons de contenuou defaible valeur. Bloquez-les pouroptimiser budget crawl.

Disallow: /*?orderby=*
Disallow: /*?filter_*=*
Disallow: /*?min_price=*
Disallow: /*?max_price=*
Disallow: /*?s=*
Disallow: /*?product_cat=*
Disallow: /*?pa_*=*
Disallow: /*/feed/$
Disallow: /*/page/*/

Lesastérisques (*)sont desjokersqui permettent de bloquer toutes les URL contenant ces paramètres. Par exemple, Disallow: /*?filter_*=* bloquera toutes les URL contenant un paramètre commençant par filter_.

Considérations spécifiques aux plugins e-commerce

Si vous utilisezWooCommerceou d’autres plugins e-commerce, vérifiez leur documentation pour desrecommandations spécifiquessur lerobots.txt. Certains plugins créent leurs propres pages ou dossiers qu’il peut être judicieux de bloquer.

Un projet WordPress en tête ?

Parlons-en : 30 min avec un expert, sans pitch.

Parler d’un projet →

Quels sont les pièges à éviterlors de lamodification de votre robots.txt?

Modifier robots txtpeut avoir desconséquences désastreusessi ce n’est pas fait correctement. Voici les erreurs les plus courantes à éviter :

Bloquer des ressources critiques (CSS, JS)

Si vous bloquez l’accès aux fichiers CSS ou JavaScript nécessaires au rendu de vos pages, Google pourrait ne pascorrectement « voir »votre site tel qu’un utilisateur le voit. Cela peutnuire à votre classementcar Google privilégie l’expérience utilisateur.

⚠️ Erreur fréquente

Ne jamais bloquer les dossiers /wp-content/uploads/, /wp-content/themes/votre-theme/css/, ou /wp-content/themes/votre-theme/js/sauf si vous savez exactement ce que vous faites et que ces ressources ne sont pas essentielles au rendu. Uneligne Allow explicitepour ces dossiers est toujours une bonne pratique si vous bloquez le /wp-content/ entier.

Bloquer par erreur des pages importantes

Une simple faute de frappe ou une directive trop large peutbloquer indexation wordpressde toutes vos pages de produits, catégories ou articles de blog. Vérifiezchaque ligne de Disallowavec la plus grande attention.

Par exemple, Disallow: /produit/ bloquera toutes les URL commençant par /produit/. Si toutes vos fiches produits sont sous /produit/mon-produit-super/, vous venez dedésindexer tout votre catalogue!

Conflits entre robots.txt et balises noindex

Il est crucial de comprendre ladifférence entre Disallow et noindex.

Critère robots.txt (Disallow) Balise noindex
Objectif principal Bloquer le crawl(l’exploration) Bloquer l’indexation
Accès des robots Refusé Autorisé
Impact sur l’indexation Peut ne pas désindexer une page déjà connue Garantit la non-indexation
Utilisation recommandée Pages à faible valeur SEO, fichiers techniques,optimiser budget crawl ✅ Pages que Google doit voir mais pas indexer (ex: pages de remerciement)

Si vous utilisez Disallow sur une page qui contient également une balise noindex, le robot ne pourra pas lire la balise noindex car il est bloqué avant. La page pourrait alors rester indexée si elle l’était déjà. Pourdésindexer une page, assurez-vous que votrerobots.txtAUTORISE son crawlafin que Google puisse lire la balise noindex.

Comment tester et valider votre fichier robots.txt?

Après chaque modification de votrerobots.txt WordPress, il estimpératif de le tester. C’est la seule façon de vous assurer que vos directives fonctionnent comme prévu et que vous n’avez pas accidentellement bloqué des pages essentielles.

L’outil Testeur de fichiers robots.txt de Google Search Console

C’est l’outil le plus fiablepour vérifier votre fichier. Il est disponible dans votrecompte Google Search Console(GSC) sous la section « Exploration » ou « Anciens outils et rapports » > « Testeur de fichier robots.