¿Es obligatorio tener robots.txt?

No es obligatorio. Si no existe, los bots asumen que pueden rastrear todo. Pero tenerlo es buena práctica incluso sin restricciones, al menos para declarar el sitemap y poder añadir reglas en futuro.

¿Robots.txt bloquea indexación o solo rastreo?

Solo bloquea rastreo . Una URL bloqueada en robots.txt puede seguir indexada si recibe backlinks externos — Google la muestra en SERP sin descripción. Para deindexar realmente, usar meta robots noindex o X-Robots-Tag en la cabecera HTTP.

¿Cómo bloqueo bots de IA?

Añadir bloques específicos: User-agent: GPTBot / Disallow: / (OpenAI), User-agent: anthropic-ai / Disallow: / (Anthropic), User-agent: Google-Extended / Disallow: / (Bard/Gemini). Decisión estratégica: bloquear protege contenido pero excluye de citas IA.

¿Dónde debe estar el archivo robots.txt?

Siempre en la raíz del dominio : https://www.tudominio.com/robots.txt . No funciona si está en subcarpetas. Cada subdominio necesita su propio robots.txt.

¿Cómo pruebo si mi robots.txt funciona?

Google Search Console > Configuración > Probador de robots.txt: prueba URLs específicas contra las reglas. También navegadores: pegar tudominio.com/robots.txt en URL para ver el contenido. Y herramientas como Screaming Frog respetan robots.txt al rastrear.

¿Disallow: / qué significa?

Bloquea el rastreo de todo el sitio . Útil en staging/desarrollo. Catastrófico en producción : Google deja de rastrear, indexación cae, tráfico se desploma. Error #1 que ver al auditar webs nuevas.

¿Puedo bloquear bots maliciosos con robots.txt?

No. robots.txt es voluntario — bots legítimos lo respetan, bots maliciosos lo ignoran. Para bloquear scrapers maliciosos: firewall a nivel de servidor, Cloudflare, .htaccess. robots.txt es solo para bots cooperativos.

Glosario · SEO B2B

¿Qué es el robots.txt y por qué un error de una línea puede desindexar tu web entera?

Q: ¿Qué es el archivo robots.txt?

Archivo de texto plano en la raíz del dominio ( tudominio.com/robots.txt ) que indica a los buscadores qué páginas pueden o no rastrear. Parte del estándar Robots Exclusion Protocol desde 1994.

Archivo de texto en la raíz del dominio que dice a los buscadores qué pueden y no pueden rastrear. Directivas, errores que matan SEO y buenas prácticas.

Auditar mi robots.txt

Actualizado mayo 2026

Definición

robots.txt: el archivo que regula qué pueden rastrear los buscadores.

El archivo robots.txt es un fichero de texto plano ubicado en la raíz de tu dominio (tudominio.com/robots.txt) que indica a los rastreadores (Googlebot, Bingbot, etc.) qué páginas o secciones de tu sitio pueden o no pueden rastrear. Es parte del Robots Exclusion Protocol, un estándar de la web desde 1994.

Cumple varias funciones críticas: (1) bloquear el rastreo de áreas privadas (panel admin, carpetas internas, parámetros UTM), (2) evitar que Google malgaste crawl budget en páginas sin valor SEO, (3) declarar la ubicación del sitemap XML, (4) permitir control granular por user-agent (reglas distintas para Googlebot, Bingbot, GPTBot, etc.).

Diferencia importante: robots.txt bloquea rastreo, no indexación. Si una URL bloqueada en robots.txt recibe enlaces, Google puede indexarla sin contenido (mostrar solo URL). Para deindexar de verdad usar meta robots noindex en la página o cabecera X-Robots-Tag. Esta confusión es uno de los errores más comunes en pymes.

En 2026 robots.txt sigue siendo esencial pero ha cobrado nueva relevancia: bloquear o permitir a bots de IA (GPTBot de OpenAI, Anthropic-AI de Anthropic, Google-Extended, CCBot de Common Crawl) que extraen contenido para entrenar modelos. Decisión estratégica con implicaciones legales y de visibilidad.

Directivas principales

Las directivas que componen un robots.txt

Sintaxis básica que todo desarrollador y SEO debe dominar.

User-agent

Identifica al bot al que se aplican las reglas. Ej: User-agent: Googlebot aplica solo a Google; User-agent: * aplica a todos. Pueden coexistir bloques distintos para distintos bots.

Disallow

Bloquea el rastreo de una ruta. Ej: Disallow: /admin/ bloquea cualquier URL que empiece por /admin/. Disallow: / bloquea todo el sitio (cuidado: error catastrófico si se deja activo en producción).

Allow

Permite rastreo de una ruta específica, útil cuando hay un Disallow más amplio. Ej: Disallow: /privado/ + Allow: /privado/publico.html. Allow tiene prioridad sobre Disallow más general.

Sitemap

Declara la ubicación del sitemap XML. Ej: Sitemap: https://www.magnetia.io/sitemap.xml. Práctica recomendada para que Google encuentre el sitemap sin depender de Search Console.

Crawl-delay (obsoleta)

Indicaba segundos de espera entre rastreos. Google la ignora desde 2019 (usar Search Console para limitar). Bing aún la respeta. Crawl-delay es legado pero algunos sitios la siguen usando.

Comentarios (#)

Líneas que empiezan con # son comentarios, ignoradas por bots. Útiles para documentar por qué se añadió cada regla. Buen hábito en sitios con robots.txt complejo.

1994

Año en que se estandariza el protocolo

/robots.txt

Siempre en raíz del dominio

500 KB

Tamaño máximo que Google procesa

Pista

Robots.txt es directiva pero no fuerza deindexación

Errores que matan SEO

Cinco errores de robots.txt que destruyen visibilidad

Disallow: / olvidado tras desarrollo

Sitio en desarrollo con User-agent: * / Disallow: / para bloquear staging. Se sube a producción sin quitarlo. Google deja de rastrear todo el sitio. Tráfico cae a cero en días. Error catastrófico clásico.

Bloquear CSS y JS

Disallow de carpetas /css/ o /js/ pensando que es "técnico, no indexable". Google necesita CSS/JS para renderizar la página y entenderla. Bloquearlos da render incompleto, rankings se desploman.

Confundir Disallow con noindex

"Quiero deindexar /admin", añado Disallow: /admin. Pero si /admin recibe enlaces, Google la sigue mostrando en SERP sin descripción. Para deindexar usar meta noindex. Disallow solo bloquea rastreo.

Sintaxis incorrecta (rutas, mayúsculas)

Rutas case-sensitive: Disallow: /Admin/ no bloquea /admin/. Falta de slash final puede no bloquear lo esperado. Validar siempre con probador de robots.txt en Search Console.

No bloquear bots de scraping de IA cuando se quiere

Tu contenido se usa para entrenar modelos sin tu consentimiento. Para evitarlo: User-agent: GPTBot / Disallow: /, igual con Anthropic-AI, Google-Extended, CCBot. Decisión estratégica: bloquear protege contenido pero excluye de citas en respuestas IA.

Cómo se relaciona con otros conceptos

robots.txt en el ecosistema SEO técnico.

robots.txt trabaja en tándem con sitemap XML: uno excluye lo que no quieres rastreado, el otro destaca lo que sí. Juntos optimizan el crawl budget. Sin sitemap o con robots.txt mal configurado, Google rastrea suboptimalmente.

Se relaciona con canonical URL y meta robots: tres mecanismos complementarios para guiar a Google. robots.txt = bloquea rastreo. canonical = consolida duplicados. meta robots noindex = bloquea indexación. Cada uno tiene su uso específico.

En pymes B2B españolas, la auditoría de robots.txt suele revelar: bloqueos heredados de desarrollos antiguos, ausencia de declaración de sitemap, no bloqueo de áreas privadas indexadas, falta de gestión de bots de IA. Magnetia lo audita en CRO web B2B. Ver también guía SEO técnico pymes.

Preguntas frecuentes

Dudas que nos hacéis llegar

Archivo de texto plano en la raíz del dominio (tudominio.com/robots.txt) que indica a los buscadores qué páginas pueden o no rastrear. Parte del estándar Robots Exclusion Protocol desde 1994.

45 min, sin compromiso

¿Tu robots.txt está optimizado o bloquea por error contenido clave?

Auditamos tu robots.txt, identificamos bloqueos heredados, validamos reglas y planificamos gestión de bots IA. Imprescindible en SEO técnico.

Reservar auditoría técnica Ver sitemap XML →

¿Qué es el robots.txt y por qué un error de una línea puede desindexar tu web entera?

robots.txt: el archivo que regula qué pueden rastrear los buscadores.

Las directivas que componen un robots.txt

User-agent

Disallow

Allow

Sitemap

Crawl-delay (obsoleta)

Comentarios (#)

Cinco errores de robots.txt que destruyen visibilidad

Disallow: / olvidado tras desarrollo

Bloquear CSS y JS

Confundir Disallow con noindex

Sintaxis incorrecta (rutas, mayúsculas)

No bloquear bots de scraping de IA cuando se quiere

robots.txt en el ecosistema SEO técnico.

Dudas que nos hacéis llegar

¿Tu robots.txt está optimizado o bloquea por error contenido clave?

IA por sector (51)

Generación de leads por ciudad (49)

Automatización IA por ciudad (13)

Google Ads por ciudad (18)

CRO web por ciudad (7)

Consultoría IA por ciudad (10)

Sector + servicio (52)

Guías largas (15)

Guías escritas por consultores en activo

IA, agentes y automatización (19)

Generación de leads y outbound (14)

Web, ads y SEO (14)

Kit Consulting (5)

Por sector (15)

Términos de IA, ventas y marketing B2B

Herramientas y alternativas