Glosario · SEO técnico

Robots.txt: qué es y cómo configurarlo

Un archivo de texto en la raíz del dominio que indica a los rastreadores qué URLs pueden y no pueden visitar.

Se sirve desde https://midominio.com/robots.txt. Ejemplo:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /tmp/

Sitemap: https://midominio.com/sitemap.xml

Qué puede y qué no puede:

  • : indicar qué rutas NO rastrear (para evitar gastar crawl budget en admin, staging, etc)
  • : referenciar el sitemap.xml
  • NO: bloquear la indexación de una página (para eso: meta robots o X-Robots-Tag)
  • NO: proteger contenido sensible (un Disallow avisa de la existencia; usa autenticación)

Disallow y noindex son cosas distintas: Disallow impide rastrear; noindex impide indexar. Si quieres que una página NO aparezca en Google, usa noindex.

Por qué importa

Un robots.txt mal configurado puede desindexar el sitio entero accidentalmente (<code>Disallow: /</code>). Revísalo cada vez que despliegues staging a prod. Es el primer sitio donde mirar si una web deja de aparecer en Google sin explicación.

Siguiente paso

¿Tienes un proyecto exigente entre manos?

Cuéntanos qué necesita tu empresa. En la primera llamada evaluamos viabilidad técnica, alcance y presupuesto cerrado. Sin compromiso.

Antes de irte

¿10 segundos para analizar tu web gratis?

Pon la URL de tu web y te damos el diagnóstico al momento: SEO, rich snippets, accesibilidad, seguridad y rendimiento. Sin registro ni email. Si después quieres informe humano, lo pides desde ahí.

Analizar mi web gratis