Technical SEO

Comment configurer Robots.txt

9 min de lecture

Votre fichier robots.txt contrôle les parties de votre site auxquelles les robots des moteurs de recherche peuvent accéder. Un robots.txt mal configuré peut empêcher l'indexation de pages importantes ou gaspiller le budget de crawl sur des URL sans valeur. Ce guide vous apprend à le configurer correctement, à le tester et à éviter les pièges courants qui nuisent au SEO.

learn.sections.stepByStep

Understand Robots.txt Basics

Robots.txt is a plain text file at your site's root (example.com/robots.txt) that uses directives to guide crawlers. The two main directives are User-agent (which crawler the rule applies to) and Disallow (which paths to block). An empty or missing robots.txt means all crawlers can access everything.

Identify What to Block

Block URLs that waste crawl budget without providing SEO value: admin pages, internal search results, login areas, cart and checkout pages, print versions, and parameter-heavy filter URLs. Never block CSS, JavaScript, or image files that search engines need to render your pages correctly.

Write Your Robots.txt Rules

Start with User-agent: * to apply rules to all crawlers. Use Disallow for paths to block and Allow to create exceptions within blocked directories. Remember that rules are case-sensitive and use path matching with wildcards (*) and end-of-URL markers ($).

Add Your Sitemap Reference

Include a Sitemap directive pointing to your XML sitemap: Sitemap: https://example.com/sitemap.xml. This helps search engines discover your sitemap even if they haven't found it through other means. You can list multiple sitemaps if your site uses sitemap index files.

Test Before Deploying

Use Google Search Console's Robots.txt Tester to verify your rules before going live. Test specific URLs to confirm important pages are accessible and blocked pages return the expected result. A single misplaced rule can accidentally block your entire site.

Monitor Crawl Activity

After deploying, monitor the Crawl Stats report in Google Search Console to verify that crawl patterns match your intentions. Check that blocked URLs aren't appearing in search results and that important pages are being crawled at appropriate frequencies.

Comprendre les bases du Robots.txt

Robots.txt est un fichier texte simple situé à la racine de votre site (example.com/robots.txt) qui utilise des directives pour guider les robots. Les deux principales directives sont User-agent (à quel robot la règle s'applique) et Disallow (quels chemins bloquer). Un fichier robots.txt vide ou manquant signifie que tous les robots peuvent tout accéder.

Identifier ce qu'il faut bloquer

Bloquez les URL qui gaspillent le budget de crawl sans apporter de valeur SEO : pages d'administration, résultats de recherche interne, zones de connexion, pages de panier et de paiement, versions imprimables et URL de filtrage avec de nombreux paramètres. Ne bloquez jamais les fichiers CSS, JavaScript ou les images dont les moteurs de recherche ont besoin pour afficher vos pages correctement.

Rédiger vos règles Robots.txt

Commencez par User-agent: * pour appliquer les règles à tous les robots. Utilisez Disallow pour les chemins à bloquer et Allow pour créer des exceptions dans les répertoires bloqués. N'oubliez pas que les règles sont sensibles à la casse et utilisent la correspondance de chemin avec des caractères génériques (*) et des marqueurs de fin d'URL ($).

Ajoutez une référence à votre Sitemap

Incluez une directive Sitemap pointant vers votre sitemap XML : Sitemap: https://example.com/sitemap.xml. Cela aide les moteurs de recherche à découvrir votre sitemap même s'ils ne l'ont pas trouvé par d'autres moyens. Vous pouvez lister plusieurs sitemaps si votre site utilise des fichiers d'index de sitemap.

Testez avant le déploiement

Utilisez le testeur de robots.txt de Google Search Console pour vérifier vos règles avant de les mettre en ligne. Testez des URL spécifiques pour confirmer que les pages importantes sont accessibles et que les pages bloquées renvoient le résultat attendu. Une seule règle mal placée peut accidentellement bloquer l'ensemble de votre site.

Surveillez l'activité de crawl

Après le déploiement, surveillez le rapport sur les statistiques de crawl dans Google Search Console pour vérifier que les schémas de crawl correspondent à vos intentions. Vérifiez que les URL bloquées n'apparaissent pas dans les résultats de recherche et que les pages importantes sont crawlées aux fréquences appropriées.

Conseils d'expert

Robots.txt blocks crawling but not indexing. If a blocked page has external backlinks, Google may still index the URL (just without content). Use noindex meta tags to prevent indexing.
Use the $ end-of-string character to block specific file types: Disallow: /*.pdf$ blocks all PDFs without affecting other URLs containing '.pdf' in the path.
Keep your robots.txt simple. Complex rules with many exceptions are hard to maintain and easy to break. If you find your robots.txt growing beyond 20-30 lines, consider using noindex tags instead.
Le fichier robots.txt bloque le crawl mais pas l'indexation. Si une page bloquée possède des backlinks externes, Google peut toujours indexer l'URL (sans le contenu). Utilisez les balises meta noindex pour empêcher l'indexation.
Utilisez le caractère $ de fin de chaîne pour bloquer des types de fichiers spécifiques : Disallow: /*.pdf$ bloque tous les fichiers PDF sans affecter les autres URL contenant '.pdf' dans le chemin.
Gardez votre robots.txt simple. Des règles complexes avec de nombreuses exceptions sont difficiles à maintenir et faciles à briser. Si votre fichier robots.txt dépasse 20 à 30 lignes, envisagez plutôt d'utiliser des balises noindex.

Erreurs courantes à éviter

Blocking CSS and JavaScript files

Google needs to render your pages to evaluate them properly. Blocking CSS or JS files prevents rendering, which means Google sees a broken page. Never block resources needed for page rendering.

Using robots.txt to hide sensitive content

Robots.txt is publicly accessible -- anyone can read it. Using it to hide admin panels or private directories actually advertises their existence. Use authentication and noindex for truly private content.

Accidentally blocking the entire site

A single 'Disallow: /' under 'User-agent: *' blocks every crawler from your entire site. This can happen during development or migration. Always double-check that no broad rules are accidentally active on production.

Bloquer les fichiers CSS et JavaScript

Google a besoin de rendre vos pages pour les évaluer correctement. Bloquer les fichiers CSS ou JS empêche le rendu, ce qui signifie que Google voit une page cassée. Ne bloquez jamais les ressources nécessaires au rendu des pages.

Utiliser le robots.txt pour masquer du contenu sensible

Le fichier robots.txt est accessible publiquement ; tout le monde peut le lire. L'utiliser pour cacher des panneaux d'administration ou des répertoires privés signale en réalité leur existence. Utilisez l'authentification et le noindex pour le contenu réellement privé.

Bloquer accidentellement l'ensemble du site

Une seule ligne 'Disallow: /' sous 'User-agent: *' bloque chaque crawler sur l'intégralité de votre site. Cela peut arriver pendant le développement ou la migration. Vérifiez toujours qu'aucune règle générale n'est active par erreur en production.

Comment Keyword Kick facilite la tâche

Interactive robots.txt generator with preset templates for common CMS platforms
Site audit checks that flag robots.txt issues including blocked important resources
Crawlability analysis showing which pages are blocked and whether that's intentional
Générateur de robots.txt interactif avec des modèles prédéfinis pour les plateformes CMS courantes
Audits de site qui signalent les problèmes de robots.txt, y compris les ressources importantes bloquées
Analyse de crawlabilité montrant quelles pages sont bloquées et si c'est intentionnel

learn.sections.faq

Is robots.txt required for SEO?

No, it's not required. Without a robots.txt file, search engines will crawl everything they can find. You only need one if you want to block specific sections from crawlers or if your site is large enough that you need to manage crawl budget.

Does robots.txt prevent pages from appearing in search results?

Not reliably. Robots.txt prevents crawling, but Google may still index the URL if it finds links pointing to it. The indexed result will show the URL and title but no description. Use a noindex meta tag to fully prevent search appearance.

How often do search engines check robots.txt?

Google typically caches your robots.txt for up to 24 hours. Changes may not take effect immediately. If you need Google to re-fetch it urgently, you can use the Robots.txt Tester in Search Console to request a refresh.

Le fichier robots.txt est-il nécessaire pour le SEO ?

Non, ce n'est pas obligatoire. Sans fichier robots.txt, les moteurs de recherche crawleront tout ce qu'ils peuvent trouver. Vous n'en avez besoin que si vous souhaitez bloquer des sections spécifiques aux crawlers ou si votre site est assez grand pour nécessiter une gestion du budget de crawl.

Le robots.txt empêche-t-il les pages d'apparaître dans les résultats de recherche ?

Pas de manière fiable. Le robots.txt empêche le crawl, mais Google peut toujours indexer l'URL s'il trouve des liens pointant vers celle-ci. Le résultat indexé affichera l'URL et le titre, mais aucune description. Utilisez une balise meta noindex pour empêcher totalement l'apparition dans les résultats.

À quelle fréquence les moteurs de recherche vérifient-ils le robots.txt ?

Google met généralement en cache votre robots.txt jusqu'à 24 heures. Les changements peuvent ne pas prendre effet immédiatement. Si vous avez besoin que Google le récupère urgemment, vous pouvez utiliser le testeur de robots.txt dans la Google Search Console pour demander une mise à jour.

learn.cta.button