¿Qué es Canonical URL?

La etiqueta HTML que indica a Google cuál es la URL "oficial" de un contenido cuando existe en varias versiones o variantes.

¿Qué es Schema.org?

Un vocabulario compartido (creado por Google, Bing, Yahoo y Yandex) para etiquetar semánticamente el contenido de una web y habilitar rich snippets.

Glosario · SEO técnico

Robots.txt: qué es y cómo configurarlo

Un archivo de texto en la raíz del dominio que indica a los rastreadores qué URLs pueden y no pueden visitar.

Se sirve desde https://midominio.com/robots.txt. Ejemplo:

User-agent: *
Allow: /
Disallow: /admin/
Disallow: /tmp/

Sitemap: https://midominio.com/sitemap.xml

Qué puede y qué no puede:

Sí: indicar qué rutas NO rastrear (para evitar gastar crawl budget en admin, staging, etc)
Sí: referenciar el sitemap.xml
NO: bloquear la indexación de una página (para eso: meta robots o X-Robots-Tag)
NO: proteger contenido sensible (un Disallow avisa de la existencia; usa autenticación)

Disallow y noindex son cosas distintas: Disallow impide rastrear; noindex impide indexar. Si quieres que una página NO aparezca en Google, usa noindex.

Por qué importa

Un robots.txt mal configurado puede desindexar el sitio entero accidentalmente (<code>Disallow: /</code>). Revísalo cada vez que despliegues staging a prod. Es el primer sitio donde mirar si una web deja de aparecer en Google sin explicación.

Robots.txt: qué es y cómo configurarlo

Por qué importa

¿Esto aplica a tu web?

¿Tienes un proyecto exigente entre manos?

Un email cada dos semanas con lo que aprendemos.