Technical SEO

Jak skonfigurować robots.txt

9 min czytania

Twój plik robots.txt kontroluje, do których części Twojej witryny mają dostęp roboty wyszukiwarek. Błędnie skonfigurowany robots.txt może zablokować indeksowanie ważnych stron lub marnować budżet indeksowania (crawl budget) na mało wartościowe adresy URL. Ten przewodnik uczy, jak poprawnie ustawić plik, przetestować go i uniknąć powszechnych pułapek szkodzących SEO.

learn.sections.stepByStep

Understand Robots.txt Basics

Robots.txt is a plain text file at your site's root (example.com/robots.txt) that uses directives to guide crawlers. The two main directives are User-agent (which crawler the rule applies to) and Disallow (which paths to block). An empty or missing robots.txt means all crawlers can access everything.

Identify What to Block

Block URLs that waste crawl budget without providing SEO value: admin pages, internal search results, login areas, cart and checkout pages, print versions, and parameter-heavy filter URLs. Never block CSS, JavaScript, or image files that search engines need to render your pages correctly.

Write Your Robots.txt Rules

Start with User-agent: * to apply rules to all crawlers. Use Disallow for paths to block and Allow to create exceptions within blocked directories. Remember that rules are case-sensitive and use path matching with wildcards (*) and end-of-URL markers ($).

Add Your Sitemap Reference

Include a Sitemap directive pointing to your XML sitemap: Sitemap: https://example.com/sitemap.xml. This helps search engines discover your sitemap even if they haven't found it through other means. You can list multiple sitemaps if your site uses sitemap index files.

Test Before Deploying

Use Google Search Console's Robots.txt Tester to verify your rules before going live. Test specific URLs to confirm important pages are accessible and blocked pages return the expected result. A single misplaced rule can accidentally block your entire site.

Monitor Crawl Activity

After deploying, monitor the Crawl Stats report in Google Search Console to verify that crawl patterns match your intentions. Check that blocked URLs aren't appearing in search results and that important pages are being crawled at appropriate frequencies.

Zrozum podstawy Robots.txt

Robots.txt to zwykły plik tekstowy znajdujący się w głównym katalogu Twojej witryny (example.com/robots.txt), który wykorzystuje dyrektywy do kierowania crawlerami. Dwie główne dyrektywy to User-agent (którego crawlera dotyczy reguła) oraz Disallow (które ścieżki zablokować). Pusty lub brakujący plik robots.txt oznacza, że wszystkie crawlery mają dostęp do wszystkiego.

Określ, co zablokować

Blokuj adresy URL, które marnują budżet indeksowania bez oferowania wartości SEO: strony administracyjne, wewnętrzne wyniki wyszukiwania, obszary logowania, koszyki i strony płatności, wersje do druku oraz adresy URL filtrów z dużą ilością parametrów. Nigdy nie blokuj plików CSS, JavaScript ani obrazów, których wyszukiwarki potrzebują do poprawnego renderowania Twoich stron.

Napisz swoje reguły Robots.txt

Zacznij od User-agent: *, aby zastosować reguły do wszystkich crawlerów. Użyj Disallow dla ścieżek do zablokowania oraz Allow, aby tworzyć wyjątki wewnątrz zablokowanych katalogów. Pamiętaj, że reguły są wrażliwe na wielkość liter i wykorzystują dopasowywanie ścieżek z symbolami wieloznacznymi (*) oraz znacznikami końca adresu URL ($).

Dodaj odnośnik do sitemapy

Dołącz dyrektywę Sitemap wskazującą na twoją sitemapę w formacie XML: Sitemap: https://example.com/sitemap.xml. Pomaga to wyszukiwarkom odkryć twoją sitemapę, nawet jeśli nie trafiły na nią w inny sposób. Możesz wymienić wiele sitemap, jeśli twoja witryna korzysta z plików indeksu sitemap.

Przetestuj przed wdrożeniem

Użyj narzędzia Robots.txt Tester w Google Search Console, aby zweryfikować swoje reguły przed ich opublikowaniem. Przetestuj konkretne adresy URL, aby potwierdzić, że ważne strony są dostępne, a zablokowane strony zwracają oczekiwany wynik. Jedna błędna reguła może przypadkowo zablokować całą witrynę.

Monitoruj aktywność indeksowania

Po wdrożeniu monitoruj raport Statystyki indeksowania w Google Search Console, aby sprawdzić, czy wzorce indeksowania są zgodne z twoimi zamierzeniami. Upewnij się, że zablokowane adresy URL nie pojawiają się w wynikach wyszukiwania, a ważne strony są indeksowane z odpowiednią częstotliwością.

Profesjonalne wskazówki

Robots.txt blocks crawling but not indexing. If a blocked page has external backlinks, Google may still index the URL (just without content). Use noindex meta tags to prevent indexing.
Use the $ end-of-string character to block specific file types: Disallow: /*.pdf$ blocks all PDFs without affecting other URLs containing '.pdf' in the path.
Keep your robots.txt simple. Complex rules with many exceptions are hard to maintain and easy to break. If you find your robots.txt growing beyond 20-30 lines, consider using noindex tags instead.
Plik robots.txt blokuje indeksowanie (crawling), ale nie samo indeksowanie w bazie. Jeśli zablokowana strona posiada zewnętrzne linki zwrotne, Google może nadal zaindeksować dany adres URL (bez zawartości). Użyj tagów meta noindex, aby zapobiec indeksowaniu.
Użyj znaku końca ciągu $ do blokowania określonych typów plików: Disallow: /*.pdf$ blokuje wszystkie pliki PDF bez wpływu na inne adresy URL zawierające „.pdf” w ścieżce.
Utrzymuj swój plik robots.txt w prostocie. Złożone reguły z wieloma wyjątkami są trudne w utrzymaniu i łatwe do zepsucia. Jeśli twój plik robots.txt przekracza 20-30 linii, rozważ użycie tagów noindex.

Częste błędy, których warto unikać

Blocking CSS and JavaScript files

Google needs to render your pages to evaluate them properly. Blocking CSS or JS files prevents rendering, which means Google sees a broken page. Never block resources needed for page rendering.

Using robots.txt to hide sensitive content

Robots.txt is publicly accessible -- anyone can read it. Using it to hide admin panels or private directories actually advertises their existence. Use authentication and noindex for truly private content.

Accidentally blocking the entire site

A single 'Disallow: /' under 'User-agent: *' blocks every crawler from your entire site. This can happen during development or migration. Always double-check that no broad rules are accidentally active on production.

Blokowanie plików CSS i JavaScript

Google musi wyrenderować twoje strony, aby prawidłowo je ocenić. Blokowanie plików CSS lub JS uniemożliwia renderowanie, co oznacza, że Google widzi uszkodzoną stronę. Nigdy nie blokuj zasobów niezbędnych do renderowania strony.

Używanie robots.txt do ukrywania wrażliwych treści

Plik robots.txt jest publicznie dostępny – każdy może go przeczytać. Używanie go do ukrywania paneli administracyjnych lub prywatnych katalogów w rzeczywistości ogłasza ich istnienie. Do naprawdę prywatnych treści używaj uwierzytelniania i tagów noindex.

Przypadkowe zablokowanie całej witryny

Pojedynczy wpis 'Disallow: /' pod 'User-agent: *' blokuje dostęp wszystkim crawlerom do całej witryny. Może się to zdarzyć podczas prac rozwojowych lub migracji. Zawsze upewnij się, że na produkcji nie są przypadkowo aktywne żadne zbyt szerokie reguły.

Jak Keyword Kick ułatwia sprawę

Interactive robots.txt generator with preset templates for common CMS platforms
Site audit checks that flag robots.txt issues including blocked important resources
Crawlability analysis showing which pages are blocked and whether that's intentional
Interaktywny generator robots.txt z gotowymi szablonami dla popularnych platform CMS
Audyty witryny, które sygnalizują problemy z robots.txt, w tym zablokowane ważne zasoby
Analiza możliwości indeksowania pokazująca, które strony są zablokowane i czy jest to działanie celowe

learn.sections.faq

Is robots.txt required for SEO?

No, it's not required. Without a robots.txt file, search engines will crawl everything they can find. You only need one if you want to block specific sections from crawlers or if your site is large enough that you need to manage crawl budget.

Does robots.txt prevent pages from appearing in search results?

Not reliably. Robots.txt prevents crawling, but Google may still index the URL if it finds links pointing to it. The indexed result will show the URL and title but no description. Use a noindex meta tag to fully prevent search appearance.

How often do search engines check robots.txt?

Google typically caches your robots.txt for up to 24 hours. Changes may not take effect immediately. If you need Google to re-fetch it urgently, you can use the Robots.txt Tester in Search Console to request a refresh.

Czy plik robots.txt jest wymagany dla SEO?

Nie, nie jest wymagany. Bez pliku robots.txt wyszukiwarki będą indeksować wszystko, co znajdą. Potrzebujesz go tylko wtedy, gdy chcesz zablokować określone sekcje przed crawlerami lub jeśli twoja witryna jest na tyle duża, że musisz zarządzać budżetem indeksowania (crawl budget).

Czy robots.txt zapobiega pojawianiu się stron w wynikach wyszukiwania?

Nie w sposób niezawodny. Robots.txt blokuje indeksowanie (crawling), ale Google może nadal zaindeksować adres URL, jeśli znajdzie kierujące do niego linki. Wynik w wyszukiwarce pokaże adres URL i tytuł, ale nie pokaże opisu. Użyj tagu meta noindex, aby w pełni zapobiec pojawianiu się strony w wyszukiwarce.

Jak często wyszukiwarki sprawdzają plik robots.txt?

Google zazwyczaj cachuje twój plik robots.txt do 24 godzin. Zmiany mogą nie wejść w życie natychmiast. Jeśli pilnie potrzebujesz, aby Google ponownie pobrało plik, możesz użyć narzędzia Robots.txt Tester w Search Console, aby wymusić odświeżenie.

learn.cta.button