Technisches SEO

So konfigurieren Sie die Robots.txt

9 Min. Lesezeit

Ihre robots.txt-Datei steuert, welche Bereiche Ihrer Website Suchmaschinen-Crawler aufrufen dürfen. Eine falsch konfigurierte robots.txt kann wichtige Seiten aus dem Index ausschließen oder Crawl-Budget für minderwertige URLs verschwenden. Dieser Leitfaden zeigt Ihnen, wie Sie sie korrekt einrichten, testen und häufige Fehler vermeiden, die Ihrem SEO schaden.

learn.sections.stepByStep

Understand Robots.txt Basics

Robots.txt is a plain text file at your site's root (example.com/robots.txt) that uses directives to guide crawlers. The two main directives are User-agent (which crawler the rule applies to) and Disallow (which paths to block). An empty or missing robots.txt means all crawlers can access everything.

Identify What to Block

Block URLs that waste crawl budget without providing SEO value: admin pages, internal search results, login areas, cart and checkout pages, print versions, and parameter-heavy filter URLs. Never block CSS, JavaScript, or image files that search engines need to render your pages correctly.

Write Your Robots.txt Rules

Start with User-agent: * to apply rules to all crawlers. Use Disallow for paths to block and Allow to create exceptions within blocked directories. Remember that rules are case-sensitive and use path matching with wildcards (*) and end-of-URL markers ($).

Add Your Sitemap Reference

Include a Sitemap directive pointing to your XML sitemap: Sitemap: https://example.com/sitemap.xml. This helps search engines discover your sitemap even if they haven't found it through other means. You can list multiple sitemaps if your site uses sitemap index files.

Test Before Deploying

Use Google Search Console's Robots.txt Tester to verify your rules before going live. Test specific URLs to confirm important pages are accessible and blocked pages return the expected result. A single misplaced rule can accidentally block your entire site.

Monitor Crawl Activity

After deploying, monitor the Crawl Stats report in Google Search Console to verify that crawl patterns match your intentions. Check that blocked URLs aren't appearing in search results and that important pages are being crawled at appropriate frequencies.

Die Grundlagen der Robots.txt verstehen

Die robots.txt ist eine einfache Textdatei im Stammverzeichnis Ihrer Website (example.com/robots.txt), die Anweisungen für Crawler enthält. Die zwei wichtigsten Anweisungen sind User-agent (für welchen Crawler die Regel gilt) und Disallow (welche Pfade blockiert werden sollen). Eine leere oder fehlende robots.txt bedeutet, dass alle Crawler auf alles zugreifen dürfen.

Identifizieren, was blockiert werden sollte

Blockieren Sie URLs, die Crawl-Budget verschwenden, ohne SEO-Wert zu bieten: Admin-Seiten, interne Suchergebnisse, Login-Bereiche, Warenkorb- und Checkout-Seiten, Druckversionen und filterintensive URLs. Blockieren Sie niemals CSS-, JavaScript- oder Bilddateien, die Suchmaschinen benötigen, um Ihre Seiten korrekt zu rendern.

Schreiben Sie Ihre Robots.txt-Regeln

Beginnen Sie mit User-agent: *, um Regeln für alle Crawler anzuwenden. Verwenden Sie Disallow für zu blockierende Pfade und Allow, um Ausnahmen innerhalb blockierter Verzeichnisse zu erstellen. Denken Sie daran, dass Regeln case-sensitive sind und Pfad-Matching mit Platzhaltern (*) sowie End-of-URL-Markern ($) verwenden.

Fügen Sie Ihre Sitemap-Referenz hinzu

Fügen Sie eine Sitemap-Anweisung hinzu, die auf Ihre XML-Sitemap verweist: Sitemap: https://example.com/sitemap.xml. Dies hilft Suchmaschinen dabei, Ihre Sitemap zu finden, auch wenn sie diese nicht auf anderem Wege entdeckt haben. Sie können mehrere Sitemaps auflisten, falls Ihre Website Sitemap-Indexdateien verwendet.

Vor der Bereitstellung testen

Verwenden Sie den Robots.txt-Tester der Google Search Console, um Ihre Regeln vor der Liveschaltung zu überprüfen. Testen Sie spezifische URLs, um zu bestätigen, dass wichtige Seiten zugänglich sind und blockierte Seiten das erwartete Ergebnis liefern. Eine einzige falsch platzierte Regel kann versehentlich Ihre gesamte Website blockieren.

Crawl-Aktivitäten überwachen

Überwachen Sie nach der Bereitstellung den Bericht zur Crawl-Statistik in der Google Search Console, um sicherzustellen, dass die Crawl-Muster Ihren Absichten entsprechen. Überprüfen Sie, ob blockierte URLs nicht in den Suchergebnissen erscheinen und ob wichtige Seiten in angemessenen Häufigkeiten gecrawlt werden.

Profi-Tipps

Robots.txt blocks crawling but not indexing. If a blocked page has external backlinks, Google may still index the URL (just without content). Use noindex meta tags to prevent indexing.
Use the $ end-of-string character to block specific file types: Disallow: /*.pdf$ blocks all PDFs without affecting other URLs containing '.pdf' in the path.
Keep your robots.txt simple. Complex rules with many exceptions are hard to maintain and easy to break. If you find your robots.txt growing beyond 20-30 lines, consider using noindex tags instead.
Robots.txt blockiert das Crawling, aber nicht die Indexierung. Wenn eine blockierte Seite externe Backlinks hat, kann Google die URL trotzdem indexieren (nur ohne Inhalt). Verwenden Sie Noindex-Meta-Tags, um die Indexierung zu verhindern.
Verwenden Sie das Zeichen $ am Ende der Zeichenfolge, um spezifische Dateitypen zu blockieren: Disallow: /*.pdf$ blockiert alle PDFs, ohne andere URLs zu beeinflussen, die '.pdf' im Pfad enthalten.
Halten Sie Ihre robots.txt einfach. Komplexe Regeln mit vielen Ausnahmen sind schwer zu pflegen und führen leicht zu Fehlern. Wenn Ihre robots.txt über 20-30 Zeilen hinausgeht, sollten Sie stattdessen Noindex-Tags in Betracht ziehen.

Häufige Fehler vermeiden

Blocking CSS and JavaScript files

Google needs to render your pages to evaluate them properly. Blocking CSS or JS files prevents rendering, which means Google sees a broken page. Never block resources needed for page rendering.

Using robots.txt to hide sensitive content

Robots.txt is publicly accessible -- anyone can read it. Using it to hide admin panels or private directories actually advertises their existence. Use authentication and noindex for truly private content.

Accidentally blocking the entire site

A single 'Disallow: /' under 'User-agent: *' blocks every crawler from your entire site. This can happen during development or migration. Always double-check that no broad rules are accidentally active on production.

Blockieren von CSS- und JavaScript-Dateien

Google muss Ihre Seiten rendern, um sie ordnungsgemäß zu bewerten. Das Blockieren von CSS- oder JS-Dateien verhindert das Rendering, was bedeutet, dass Google eine defekte Seite sieht. Blockieren Sie niemals Ressourcen, die für das Seiten-Rendering erforderlich sind.

Verwendung von robots.txt zum Verbergen sensibler Inhalte

Die robots.txt ist öffentlich zugänglich – jeder kann sie lesen. Sie zu nutzen, um Admin-Bereiche oder private Verzeichnisse zu verbergen, macht deren Existenz erst bekannt. Verwenden Sie für wirklich private Inhalte eine Authentifizierung und Noindex.

Versehentliches Blockieren der gesamten Website

Ein einzelnes 'Disallow: /' unter 'User-agent: *' blockiert jeden Crawler von Ihrer gesamten Website. Dies kann während der Entwicklung oder Migration passieren. Überprüfen Sie immer doppelt, dass in der Produktion keine weitreichenden Regeln versehentlich aktiv sind.

So macht es Keyword Kick einfach

Interactive robots.txt generator with preset templates for common CMS platforms
Site audit checks that flag robots.txt issues including blocked important resources
Crawlability analysis showing which pages are blocked and whether that's intentional
Interaktiver robots.txt-Generator mit voreingestellten Vorlagen für gängige CMS-Plattformen
Website-Audit-Checks, die robots.txt-Probleme kennzeichnen, einschließlich blockierter wichtiger Ressourcen
Crawlability-Analyse, die anzeigt, welche Seiten blockiert sind und ob dies beabsichtigt ist

learn.sections.faq

Is robots.txt required for SEO?

No, it's not required. Without a robots.txt file, search engines will crawl everything they can find. You only need one if you want to block specific sections from crawlers or if your site is large enough that you need to manage crawl budget.

Does robots.txt prevent pages from appearing in search results?

Not reliably. Robots.txt prevents crawling, but Google may still index the URL if it finds links pointing to it. The indexed result will show the URL and title but no description. Use a noindex meta tag to fully prevent search appearance.

How often do search engines check robots.txt?

Google typically caches your robots.txt for up to 24 hours. Changes may not take effect immediately. If you need Google to re-fetch it urgently, you can use the Robots.txt Tester in Search Console to request a refresh.

Ist robots.txt für SEO erforderlich?

Nein, es ist nicht erforderlich. Ohne eine robots.txt-Datei crawlen Suchmaschinen alles, was sie finden können. Sie benötigen eine solche Datei nur, wenn Sie bestimmte Bereiche vor Crawlern blockieren möchten oder wenn Ihre Website so groß ist, dass Sie das Crawl-Budget verwalten müssen.

Verhindert robots.txt, dass Seiten in den Suchergebnissen erscheinen?

Nicht zuverlässig. Robots.txt verhindert das Crawling, aber Google kann die URL trotzdem indexieren, wenn es Links findet, die darauf verweisen. Das indexierte Ergebnis zeigt die URL und den Titel, aber keine Beschreibung. Verwenden Sie ein Noindex-Meta-Tag, um das Erscheinen in der Suche vollständig zu verhindern.

Wie oft überprüfen Suchmaschinen die robots.txt?

Google cached Ihre robots.txt normalerweise für bis zu 24 Stunden. Änderungen treten möglicherweise nicht sofort in Kraft. Wenn Google die Datei dringend erneut abrufen soll, können Sie den Robots.txt-Tester in der Search Console verwenden, um eine Aktualisierung anzufordern.