Optimiser le fichier robots.txt de votre WordPress
Lerobots txt wordpressestun fichier essentielquidicte aux robots des moteurs de rechercheles parties de votre siteà explorer ou à ignorer.Son optimisationpermet dediriger efficacement le « budget crawl »de Google, unestratégie crucialepour lesgrands sites e-commerce WordPresssouvent pénalisés par un crawl inefficace, garantissant ainsi quevos pages les plus importantessoientcorrectement indexéesetréférencées.
Points clés à retenir
- Lefichier robots.txtguide les robots des moteurs de recherche sur votre site WordPress.
- Uneoptimisation précisepermet degérer le budget crawl, indispensable pour lesgrands sites e-commerce.
- Vous pouvezmodifier robots txtvia unplugin SEOou directement parFTP.
- Desrègles de « Disallow »bien définies évitent debloquer indexation wordpressde pages non pertinentes.
- Letest du robots.txtavec laGoogle Search Consoleestimpératifavant toute mise en production.
Qu’est-ce que le fichier robots.txtetpourquoi est-il crucial pour votre SEO WordPress?
Lefichier robots.txtestune simple instruction textuelleque vous placez à laracine de votre site web WordPress. Son rôle est decommuniquer avec les « user-agents », c’est-à-dire lesrobots d’exploration des moteurs de recherche(comme Googlebot pour Google, Bingbot pour Bing, etc.). Il leur indiquequelles parties de votre site ils sont autorisés à explorer(crawler) etquelles parties ils doivent ignorer.
Pour votresite WordPress, ce fichier est loin d’être anodin. Il est lapremière porte d’entréepour les robots. Si vous ne les guidez pas correctement, ils risquent deperdre du temps à explorer des pages sans intérêtpour le référencement, ou pire, dene pas trouver vos contenus les plus importants.
Unrobots.txt bien configuréest lapremière étapepourprendre le contrôle de votre visibilité sur Googleetoptimiser budget crawl.
Nicolas Buathier, Expert WordPress
L’enjeu n’est pas seulement debloquer indexation wordpressde certaines pages, mais deconcentrer l’effort d’exploration de Googlesur ce qui compte vraiment. C’est ce que l’on appelle l’optimisation du budget crawl.
Comment le robots.txt influence-t-il votre SEO WordPressetvotre budget crawl?
Chaque site web dispose d’unbudget crawl, c’est-à-dire lenombre de pages que les robots de Google sont prêts à explorersur votre site au cours d’une période donnée. Ce budget n’est pas infini et varie en fonction de lataille de votre site, de sapopularitéet de safréquence de mise à jour.
Pour unsite WordPress « classique »(blog, vitrine), le budget crawl est rarement un problème majeur. Mais pour lesgros sites e-commerce WordPressavec des milliers de produits, de catégories, de filtres de recherche et de pages générées dynamiquement, il devientabsolument critique.
Les enjeux du budget crawl pour l’e-commerce WordPress
Imaginez un site e-commerce avec 5000 produits. Si chaque produit a 10 variations (couleur, taille) et que les filtres génèrent des centaines de pages URL supplémentaires, lenombre total d’URL peut exploser. Sans unrobots.txtoptimisé, les robots vontperdre un temps précieuxà explorer des pages de filtres, des paniers d’achat, des pages de connexion ou des versions dupliquées de produits. Pendant ce temps, vosnouvelles fiches produitsou vospages de catégories stratégiquespourraientattendre des joursavant d’être explorées et indexées.
En utilisant lesbonnes directivesdans votrerobots.txt WordPress, vous pouvez :
- Éviter le contenu dupliqué: Bloquer les robots d’accéder aux URL avec paramètres (tri, filtre) qui ne devraient pas être indexées.
- Protéger les zones sensibles: Empêcher l’exploration des dossiers d’administration (
/wp-admin/), des fichiers de plugins ou de thèmes. - Orienter les robots: Les inciter à se concentrer sur vos pages à forte valeur ajoutée (produits, catégories, articles de blog).
Lerobots.txtne remplace pas la balise noindex. Un fichier robots.txtbloque le crawl, mais une page déjà indexée peut le rester. Pourdésindexer une page, utilisez la balise noindex (via un plugin SEO) et assurez-vous que lerobots.txtne bloque pas le crawl de cette page.
Où trouver et comment modifier le fichier robots.txtsur votresite WordPress?
Lefichier robots.txtest unfichier textesitué à laracine de votre installation WordPress. Si vous ne l’avez jamais créé, WordPress en génère unvirtuel par défaut. Ce fichier virtuel est très basique et ne contient souvent qu’une ligne pour le sitemap.
Modifier robots txtavec un plugin SEO (méthode recommandée)
Pour la plupart des utilisateurs de WordPress, laméthode la plus simple et la plus sûrepourmodifier robots txtest d’utiliser unplugin SEO comme Yoast SEO ou Rank Math. Ces plugins vous permettent d’éditer le fichier directementdepuis votre tableau de bord WordPress, sans avoir à manipuler de fichiers via FTP.
- Yoast SEO: Allez dans SEO > Outils > Éditeur de fichiers.
- Rank Math: Allez dans Rank Math > Réglages généraux > Éditer Robots.txt.
Si aucun fichier physique n’existe, ces plugins en créeront un pour vous. C’est la solution la plus accessible pourbloquer indexation wordpressde certains éléments sans risque de casser votre site.
Accès direct via FTP/SFTP ou cPanel(pour les experts)
Si vous êtes undéveloppeurou unutilisateur expérimenté, vous pouvezmodifier robots txtdirectement viaFTP/SFTP(avec un client comme FileZilla) ou via leGestionnaire de fichiers de votre cPanel.
- Connectez-vous à votre serveuravec vos identifiants FTP.
- Naviguez jusqu’au dossier racinede votre installation WordPress (souvent
public_htmlouwww). - Recherchez le fichier
robots.txt. S’il n’existe pas, créez un nouveau fichier texte nommérobots.txt. - Éditez le fichieravec un éditeur de texte simple (bloc-notes, Sublime Text, VS Code) etenregistrez vos modifications.
- Uploadez le fichiervers le serveur si vous l’avez créé ou modifié localement.
Ne modifiez jamais le fichier robots.txtsans unesauvegarde préalableou sans savoir exactement ce que vous faites. Uneerreur peut bloquer l’intégralité de votre sitedes moteurs de recherche !
Quelles sont les règles essentielles à incluredans votrefichier robots.txt WordPress?
Lefichier robots.txtutilise un ensemble dedirectives simplespour communiquer avec les robots. Voici les plus importantes et les plus courantes pour votrerobots txt wordpress:
Les directives fondamentales
User-agent:Spécifie le robotauquel s’appliquent les règles suivantes.User-agent: *signifie que les règles s’appliquent àtous les robots. Vous pouvez cibler des robots spécifiques (ex:User-agent: Googlebot).Disallow: /chemin/Empêche les robotsd’explorer le répertoire ou le fichier spécifié. C’est la directive clé pourbloquer indexation wordpressde contenus non pertinents.Allow: /chemin/(moins courant, mais utile) :Permet l’explorationd’un sous-répertoire ou d’un fichier dans un répertoire autrement « Disallow ». Utile pour des ressources spécifiques (fichiers JS ou CSS).Sitemap: URL_de_votre_sitemap.xml: Indique aux moteurs de rechercheoù trouver votre sitemap XML, ce qui facilite la découverte de toutes vos pages importantes.
Exemple de robots.txt WordPress optimisé
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/
Disallow: /wp-login.php
Disallow: /wp-signup.php
Disallow: /wp-activate.php
Disallow: /wp-comments-post.php
Disallow: /xmlrpc.php
Disallow: /feed/
Disallow: /comments/feed/
Disallow: /trackback/
Disallow: /*/feed/$
Disallow: /*/comment-page-*
Disallow: /*?author=*
Disallow: /*?replytocom=*
Disallow: /*/embed/$
Disallow: /tag/
Disallow: /category/*/page/
Disallow: /author/
Disallow: /search/
Disallow: /page/*/
Allow: /wp-content/uploads/
Sitemap: https://www.votre-site.fr/sitemap_index.xml
Explication des directives courantes
Dossiers sensibles
Disallow: /wp-admin/ et /wp-includes/ empêchent l’accès aux zones d’administration et aux fichiers système de WordPress. Ce n’est pas pour des raisons de sécurité, mais pour éviter l’indexation de pages sans intérêt SEO.
Contenu technique
Disallow: /wp-content/plugins/ et /wp-content/themes/ bloquent les fichiers des extensions et des thèmes. Sauf si un plugin crée des pages publiques importantes, il est préférable de ne pas les indexer.
Pages inutiles
Disallow: /feed/, /comments/feed/, /tag/, /author/, /search/ : Ces pages génèrent souvent du contenu dupliqué ou de faible valeur pour le SEO. Les bloquer permet d’optimiser budget crawl.
La ligne Allow: /wp-content/uploads/ est cruciale. Elle permet aux robots d’accéder à vos images et autres médias, qui sont essentiels pour le référencement visuel de votre site WordPress.
Comment optimiser votre fichier robots.txtpour unsite e-commerce WordPress?
L’optimisation du robots.txtpour un site e-commerce est uncas d’usage avancéetextrêmement importantpouroptimiser budget crawl. Les sites e-commerce génèrent naturellement un grand nombre de pages peu utiles au SEO mais gourmandes en crawl.
Blocage des pages de panier, commande et compte client
Ces pages sont essentielles pour l’utilisateur mais n’ontaucune valeur SEO. Elles ne doivent jamais être indexées.
Disallow: /panier/
Disallow: /commande/
Disallow: /mon-compte/
Disallow: /checkout/
Disallow: /cart/
Disallow: /my-account/
Disallow: /wishlist/
Disallow: /compare/
Gestion des URL à paramètres (filtres, tri, pagination)
C’est l’un des plus gros problèmespour les sites e-commerce. Les filtres de produits (par couleur, taille, prix) ou les options de tri génèrent desmilliers d’URL uniquesqui sont souvent desdoublons de contenuou defaible valeur. Bloquez-les pouroptimiser budget crawl.
Disallow: /*?orderby=*
Disallow: /*?filter_*=*
Disallow: /*?min_price=*
Disallow: /*?max_price=*
Disallow: /*?s=*
Disallow: /*?product_cat=*
Disallow: /*?pa_*=*
Disallow: /*/feed/$
Disallow: /*/page/*/
Lesastérisques (*)sont desjokersqui permettent de bloquer toutes les URL contenant ces paramètres. Par exemple, Disallow: /*?filter_*=* bloquera toutes les URL contenant un paramètre commençant par filter_.
Considérations spécifiques aux plugins e-commerce
Si vous utilisezWooCommerceou d’autres plugins e-commerce, vérifiez leur documentation pour desrecommandations spécifiquessur lerobots.txt. Certains plugins créent leurs propres pages ou dossiers qu’il peut être judicieux de bloquer.
Un projet WordPress en tête ?
Parlons-en : 30 min avec un expert, sans pitch.
Quels sont les pièges à éviterlors de lamodification de votre robots.txt?
Modifier robots txtpeut avoir desconséquences désastreusessi ce n’est pas fait correctement. Voici les erreurs les plus courantes à éviter :
Bloquer des ressources critiques (CSS, JS)
Si vous bloquez l’accès aux fichiers CSS ou JavaScript nécessaires au rendu de vos pages, Google pourrait ne pascorrectement « voir »votre site tel qu’un utilisateur le voit. Cela peutnuire à votre classementcar Google privilégie l’expérience utilisateur.
Ne jamais bloquer les dossiers /wp-content/uploads/, /wp-content/themes/votre-theme/css/, ou /wp-content/themes/votre-theme/js/sauf si vous savez exactement ce que vous faites et que ces ressources ne sont pas essentielles au rendu. Uneligne Allow explicitepour ces dossiers est toujours une bonne pratique si vous bloquez le /wp-content/ entier.
Bloquer par erreur des pages importantes
Une simple faute de frappe ou une directive trop large peutbloquer indexation wordpressde toutes vos pages de produits, catégories ou articles de blog. Vérifiezchaque ligne de Disallowavec la plus grande attention.
Par exemple, Disallow: /produit/ bloquera toutes les URL commençant par /produit/. Si toutes vos fiches produits sont sous /produit/mon-produit-super/, vous venez dedésindexer tout votre catalogue!
Conflits entre robots.txt et balises noindex
Il est crucial de comprendre ladifférence entre Disallow et noindex.
| Critère | robots.txt (Disallow) |
Balise noindex |
|---|---|---|
| Objectif principal | Bloquer le crawl(l’exploration) | ✅Bloquer l’indexation |
| Accès des robots | ❌Refusé | ✅Autorisé |
| Impact sur l’indexation | Peut ne pas désindexer une page déjà connue | ✅Garantit la non-indexation |
| Utilisation recommandée | Pages à faible valeur SEO, fichiers techniques,optimiser budget crawl | ✅ Pages que Google doit voir mais pas indexer (ex: pages de remerciement) |
Si vous utilisez Disallow sur une page qui contient également une balise noindex, le robot ne pourra pas lire la balise noindex car il est bloqué avant. La page pourrait alors rester indexée si elle l’était déjà. Pourdésindexer une page, assurez-vous que votrerobots.txtAUTORISE son crawlafin que Google puisse lire la balise noindex.
Comment tester et valider votre fichier robots.txt?
Après chaque modification de votrerobots.txt WordPress, il estimpératif de le tester. C’est la seule façon de vous assurer que vos directives fonctionnent comme prévu et que vous n’avez pas accidentellement bloqué des pages essentielles.
L’outil Testeur de fichiers robots.txt de Google Search Console
C’est l’outil le plus fiablepour vérifier votre fichier. Il est disponible dans votrecompte Google Search Console(GSC) sous la section « Exploration » ou « Anciens outils et rapports » > « Testeur de fichier robots.