SEO técnico

Cómo configurar robots.txt

9 min de lectura

Tu archivo robots.txt controla qué partes de tu sitio pueden acceder los rastreadores de los motores de búsqueda. Un robots.txt mal configurado puede bloquear páginas importantes para que no sean indexadas o desperdiciar el presupuesto de rastreo en URLs de poco valor. Esta guía te enseña cómo configurarlo correctamente, probarlo y evitar los obstáculos comunes que dañan el SEO.

learn.sections.stepByStep

Understand Robots.txt Basics

Robots.txt is a plain text file at your site's root (example.com/robots.txt) that uses directives to guide crawlers. The two main directives are User-agent (which crawler the rule applies to) and Disallow (which paths to block). An empty or missing robots.txt means all crawlers can access everything.

Identify What to Block

Block URLs that waste crawl budget without providing SEO value: admin pages, internal search results, login areas, cart and checkout pages, print versions, and parameter-heavy filter URLs. Never block CSS, JavaScript, or image files that search engines need to render your pages correctly.

Write Your Robots.txt Rules

Start with User-agent: * to apply rules to all crawlers. Use Disallow for paths to block and Allow to create exceptions within blocked directories. Remember that rules are case-sensitive and use path matching with wildcards (*) and end-of-URL markers ($).

Add Your Sitemap Reference

Include a Sitemap directive pointing to your XML sitemap: Sitemap: https://example.com/sitemap.xml. This helps search engines discover your sitemap even if they haven't found it through other means. You can list multiple sitemaps if your site uses sitemap index files.

Test Before Deploying

Use Google Search Console's Robots.txt Tester to verify your rules before going live. Test specific URLs to confirm important pages are accessible and blocked pages return the expected result. A single misplaced rule can accidentally block your entire site.

Monitor Crawl Activity

After deploying, monitor the Crawl Stats report in Google Search Console to verify that crawl patterns match your intentions. Check that blocked URLs aren't appearing in search results and that important pages are being crawled at appropriate frequencies.

Comprende los conceptos básicos de robots.txt

Robots.txt es un archivo de texto plano en la raíz de tu sitio (example.com/robots.txt) que utiliza directivas para guiar a los rastreadores. Las dos directivas principales son User-agent (a qué rastreador se aplica la regla) y Disallow (qué rutas bloquear). Un robots.txt vacío o ausente significa que todos los rastreadores pueden acceder a todo.

Identifica qué bloquear

Bloquea las URLs que desperdician el presupuesto de rastreo sin proporcionar valor SEO: páginas de administración, resultados de búsqueda interna, áreas de inicio de sesión, páginas de carrito y pago, versiones de impresión y URLs de filtro con muchos parámetros. Nunca bloquees archivos CSS, JavaScript o de imagen que los motores de búsqueda necesitan para renderizar tus páginas correctamente.

Escribe tus reglas de robots.txt

Comienza con User-agent: * para aplicar reglas a todos los rastreadores. Usa Disallow para las rutas que deseas bloquear y Allow para crear excepciones dentro de los directorios bloqueados. Recuerda que las reglas distinguen entre mayúsculas y minúsculas y utilizan la coincidencia de rutas con comodines (*) y marcadores de fin de URL ($).

Añada la referencia a su sitemap

Incluya una directiva Sitemap que apunte a su XML sitemap: Sitemap: https://example.com/sitemap.xml. Esto ayuda a los motores de búsqueda a descubrir su sitemap incluso si no lo han encontrado por otros medios. Puede listar múltiples sitemaps si su sitio utiliza archivos de índice de sitemap.

Pruebe antes de implementar

Utilice el probador de robots.txt de Google Search Console para verificar sus reglas antes de publicarlas. Pruebe URLs específicas para confirmar que las páginas importantes son accesibles y que las páginas bloqueadas devuelven el resultado esperado. Una sola regla mal ubicada puede bloquear accidentalmente todo su sitio.

Monitoree la actividad de rastreo

Después de la implementación, monitoree el informe de estadísticas de rastreo en Google Search Console para verificar que los patrones de rastreo coincidan con sus intenciones. Compruebe que las URLs bloqueadas no aparezcan en los resultados de búsqueda y que las páginas importantes se rastreen con la frecuencia adecuada.

Consejos pro

Robots.txt blocks crawling but not indexing. If a blocked page has external backlinks, Google may still index the URL (just without content). Use noindex meta tags to prevent indexing.
Use the $ end-of-string character to block specific file types: Disallow: /*.pdf$ blocks all PDFs without affecting other URLs containing '.pdf' in the path.
Keep your robots.txt simple. Complex rules with many exceptions are hard to maintain and easy to break. If you find your robots.txt growing beyond 20-30 lines, consider using noindex tags instead.
El robots.txt bloquea el rastreo, pero no la indexación. Si una página bloqueada tiene backlinks externos, Google aún puede indexar la URL (sin contenido). Utilice etiquetas meta noindex para evitar la indexación.
Utilice el carácter de final de cadena $ para bloquear tipos de archivo específicos: Disallow: /*.pdf$ bloquea todos los archivos PDF sin afectar a otras URLs que contengan '.pdf' en la ruta.
Mantenga su robots.txt simple. Las reglas complejas con muchas excepciones son difíciles de mantener y fáciles de romper. Si descubre que su robots.txt supera las 20-30 líneas, considere utilizar etiquetas noindex en su lugar.

Errores comunes a evitar

Blocking CSS and JavaScript files

Google needs to render your pages to evaluate them properly. Blocking CSS or JS files prevents rendering, which means Google sees a broken page. Never block resources needed for page rendering.

Using robots.txt to hide sensitive content

Robots.txt is publicly accessible -- anyone can read it. Using it to hide admin panels or private directories actually advertises their existence. Use authentication and noindex for truly private content.

Accidentally blocking the entire site

A single 'Disallow: /' under 'User-agent: *' blocks every crawler from your entire site. This can happen during development or migration. Always double-check that no broad rules are accidentally active on production.

Bloquear archivos CSS y JavaScript

Google necesita renderizar sus páginas para evaluarlas correctamente. Bloquear archivos CSS o JS impide el renderizado, lo que significa que Google ve una página rota. Nunca bloquee los recursos necesarios para el renderizado de la página.

Utilizar robots.txt para ocultar contenido sensible

El robots.txt es de acceso público: cualquiera puede leerlo. Usarlo para ocultar paneles de administración o directorios privados en realidad anuncia su existencia. Utilice autenticación y noindex para contenido verdaderamente privado.

Bloquear accidentalmente todo el sitio

Un solo 'Disallow: /' bajo 'User-agent: *' bloquea a todos los rastreadores de todo su sitio. Esto puede ocurrir durante el desarrollo o la migración. Siempre verifique dos veces que no haya reglas generales activas accidentalmente en producción.

Cómo Keyword Kick facilita el proceso

Interactive robots.txt generator with preset templates for common CMS platforms
Site audit checks that flag robots.txt issues including blocked important resources
Crawlability analysis showing which pages are blocked and whether that's intentional
Generador interactivo de robots.txt con plantillas preestablecidas para plataformas CMS comunes
Verificaciones de auditoría del sitio que marcan problemas en robots.txt, incluyendo recursos importantes bloqueados
Análisis de capacidad de rastreo que muestra qué páginas están bloqueadas y si eso es intencional

learn.sections.faq

Is robots.txt required for SEO?

No, it's not required. Without a robots.txt file, search engines will crawl everything they can find. You only need one if you want to block specific sections from crawlers or if your site is large enough that you need to manage crawl budget.

Does robots.txt prevent pages from appearing in search results?

Not reliably. Robots.txt prevents crawling, but Google may still index the URL if it finds links pointing to it. The indexed result will show the URL and title but no description. Use a noindex meta tag to fully prevent search appearance.

How often do search engines check robots.txt?

Google typically caches your robots.txt for up to 24 hours. Changes may not take effect immediately. If you need Google to re-fetch it urgently, you can use the Robots.txt Tester in Search Console to request a refresh.

¿Es necesario el robots.txt para SEO?

No, no es necesario. Sin un archivo robots.txt, los motores de búsqueda rastrearán todo lo que puedan encontrar. Solo necesita uno si desea bloquear secciones específicas para los rastreadores o si su sitio es lo suficientemente grande como para gestionar el presupuesto de rastreo.

¿El robots.txt evita que las páginas aparezcan en los resultados de búsqueda?

No de forma fiable. El robots.txt evita el rastreo, pero Google aún puede indexar la URL si encuentra enlaces que apunten a ella. El resultado indexado mostrará la URL y el título, pero no la descripción. Utilice una etiqueta meta noindex para evitar completamente la aparición en la búsqueda.

¿Con qué frecuencia verifican los motores de búsqueda el robots.txt?

Google generalmente almacena su robots.txt en caché hasta por 24 horas. Es posible que los cambios no surtan efecto de inmediato. Si necesita que Google lo vuelva a buscar con urgencia, puede utilizar el probador de robots.txt en Search Console para solicitar una actualización.

learn.cta.button