Magnetia — Agencia de marketing digital, IA y diseño web
Glosario · SEO B2B

¿Qué es el robots.txt y por qué un error de una línea puede desindexar tu web entera?

Archivo de texto en la raíz del dominio que dice a los buscadores qué pueden y no pueden rastrear. Directivas, errores que matan SEO y buenas prácticas.

Auditar mi robots.txt

Actualizado mayo 2026

Definición

robots.txt: el archivo que regula qué pueden rastrear los buscadores.

El archivo robots.txt es un fichero de texto plano ubicado en la raíz de tu dominio (tudominio.com/robots.txt) que indica a los rastreadores (Googlebot, Bingbot, etc.) qué páginas o secciones de tu sitio pueden o no pueden rastrear. Es parte del Robots Exclusion Protocol, un estándar de la web desde 1994.

Cumple varias funciones críticas: (1) bloquear el rastreo de áreas privadas (panel admin, carpetas internas, parámetros UTM), (2) evitar que Google malgaste crawl budget en páginas sin valor SEO, (3) declarar la ubicación del sitemap XML, (4) permitir control granular por user-agent (reglas distintas para Googlebot, Bingbot, GPTBot, etc.).

Diferencia importante: robots.txt bloquea rastreo, no indexación. Si una URL bloqueada en robots.txt recibe enlaces, Google puede indexarla sin contenido (mostrar solo URL). Para deindexar de verdad usar meta robots noindex en la página o cabecera X-Robots-Tag. Esta confusión es uno de los errores más comunes en pymes.

En 2026 robots.txt sigue siendo esencial pero ha cobrado nueva relevancia: bloquear o permitir a bots de IA (GPTBot de OpenAI, Anthropic-AI de Anthropic, Google-Extended, CCBot de Common Crawl) que extraen contenido para entrenar modelos. Decisión estratégica con implicaciones legales y de visibilidad.

Directivas principales

Las directivas que componen un robots.txt

Sintaxis básica que todo desarrollador y SEO debe dominar.

User-agent

Identifica al bot al que se aplican las reglas. Ej: User-agent: Googlebot aplica solo a Google; User-agent: * aplica a todos. Pueden coexistir bloques distintos para distintos bots.

Disallow

Bloquea el rastreo de una ruta. Ej: Disallow: /admin/ bloquea cualquier URL que empiece por /admin/. Disallow: / bloquea todo el sitio (cuidado: error catastrófico si se deja activo en producción).

Allow

Permite rastreo de una ruta específica, útil cuando hay un Disallow más amplio. Ej: Disallow: /privado/ + Allow: /privado/publico.html. Allow tiene prioridad sobre Disallow más general.

Sitemap

Declara la ubicación del sitemap XML. Ej: Sitemap: https://www.magnetia.io/sitemap.xml. Práctica recomendada para que Google encuentre el sitemap sin depender de Search Console.

Crawl-delay (obsoleta)

Indicaba segundos de espera entre rastreos. Google la ignora desde 2019 (usar Search Console para limitar). Bing aún la respeta. Crawl-delay es legado pero algunos sitios la siguen usando.

Comentarios (#)

Líneas que empiezan con # son comentarios, ignoradas por bots. Útiles para documentar por qué se añadió cada regla. Buen hábito en sitios con robots.txt complejo.

1994
Año en que se estandariza el protocolo
/robots.txt
Siempre en raíz del dominio
500 KB
Tamaño máximo que Google procesa
Pista
Robots.txt es directiva pero no fuerza deindexación
Errores que matan SEO

Cinco errores de robots.txt que destruyen visibilidad

Disallow: / olvidado tras desarrollo

Sitio en desarrollo con <em>User-agent: * / Disallow: /</em> para bloquear staging. Se sube a producción sin quitarlo. Google deja de rastrear todo el sitio. Tráfico cae a cero en días. Error catastrófico clásico.

Bloquear CSS y JS

Disallow de carpetas /css/ o /js/ pensando que es "técnico, no indexable". Google necesita CSS/JS para renderizar la página y entenderla. Bloquearlos da render incompleto, rankings se desploman.

Confundir Disallow con noindex

"Quiero deindexar /admin", añado <em>Disallow: /admin</em>. Pero si /admin recibe enlaces, Google la sigue mostrando en SERP sin descripción. Para deindexar usar meta noindex. Disallow solo bloquea rastreo.

Sintaxis incorrecta (rutas, mayúsculas)

Rutas case-sensitive: <em>Disallow: /Admin/</em> no bloquea <em>/admin/</em>. Falta de slash final puede no bloquear lo esperado. Validar siempre con probador de robots.txt en Search Console.

No bloquear bots de scraping de IA cuando se quiere

Tu contenido se usa para entrenar modelos sin tu consentimiento. Para evitarlo: <em>User-agent: GPTBot / Disallow: /</em>, igual con Anthropic-AI, Google-Extended, CCBot. Decisión estratégica: bloquear protege contenido pero excluye de citas en respuestas IA.

Cómo se relaciona con otros conceptos

robots.txt en el ecosistema SEO técnico.

robots.txt trabaja en tándem con sitemap XML: uno excluye lo que no quieres rastreado, el otro destaca lo que sí. Juntos optimizan el crawl budget. Sin sitemap o con robots.txt mal configurado, Google rastrea suboptimalmente.

Se relaciona con canonical URL y meta robots: tres mecanismos complementarios para guiar a Google. robots.txt = bloquea rastreo. canonical = consolida duplicados. meta robots noindex = bloquea indexación. Cada uno tiene su uso específico.

En pymes B2B españolas, la auditoría de robots.txt suele revelar: bloqueos heredados de desarrollos antiguos, ausencia de declaración de sitemap, no bloqueo de áreas privadas indexadas, falta de gestión de bots de IA. Magnetia lo audita en CRO web B2B. Ver también guía SEO técnico pymes.

Preguntas frecuentes

Dudas que nos hacéis llegar

Archivo de texto plano en la raíz del dominio (tudominio.com/robots.txt) que indica a los buscadores qué páginas pueden o no rastrear. Parte del estándar Robots Exclusion Protocol desde 1994.
45 min, sin compromiso

¿Tu robots.txt está optimizado o bloquea por error contenido clave?

Auditamos tu robots.txt, identificamos bloqueos heredados, validamos reglas y planificamos gestión de bots IA. Imprescindible en SEO técnico.

Hablemos