Robots.txt: qué es y cómo configurarlo
Se sirve desde https://midominio.com/robots.txt. Ejemplo:
User-agent: *
Allow: /
Disallow: /admin/
Disallow: /tmp/
Sitemap: https://midominio.com/sitemap.xml
Qué puede y qué no puede:
- Sí: indicar qué rutas NO rastrear (para evitar gastar crawl budget en admin, staging, etc)
- Sí: referenciar el sitemap.xml
- NO: bloquear la indexación de una página (para eso: meta robots o X-Robots-Tag)
- NO: proteger contenido sensible (un Disallow avisa de la existencia; usa autenticación)
Disallow y noindex son cosas distintas: Disallow impide rastrear; noindex impide indexar. Si quieres que una página NO aparezca en Google, usa noindex.
Por qué importa
Un robots.txt mal configurado puede desindexar el sitio entero accidentalmente (<code>Disallow: /</code>). Revísalo cada vez que despliegues staging a prod. Es el primer sitio donde mirar si una web deja de aparecer en Google sin explicación.
¿Esto aplica a tu web?
En 10 segundos te decimos cómo está tu sitio respecto a los términos del glosario: Core Web Vitals, schema, seguridad, accesibilidad, SEO técnico.
¿Tienes un proyecto exigente entre manos?
Cuéntanos qué necesita tu empresa. En la primera llamada evaluamos viabilidad técnica, alcance y presupuesto cerrado. Sin compromiso.