Imagina que Googlebot, la araña de Google, es un explorador que llega a tu sitio web por primera vez. Para que su visita sea lo más eficiente posible, podemos darle dos herramientas fundamentales: un mapa para que no se pierda ninguna habitación importante (el Sitemap) y una lista de puertas con el cartel de «no entrar» para que no pierda el tiempo en zonas privadas (el archivo Robots.txt).
Estos dos archivos son la forma más directa que tenemos de comunicarnos con los motores de búsqueda y guiar su comportamiento dentro de nuestra web. Dominarlos es un paso esencial del SEO Técnico.
Sitemap.xml: El Mapa de tu Tesoro
Un Sitemap (o mapa del sitio) es un archivo en formato XML que contiene una lista de todas las URLs importantes de tu sitio web que quieres que los motores de búsqueda rastreen e indexen. Es, literalmente, un mapa que le entregas a Google.
¿Por qué es tan importante un Sitemap?
- Asegura el descubrimiento: Garantiza que Google conozca la existencia de todas tus páginas importantes, incluso si no tienen muchos enlaces internos apuntando hacia ellas (lo que se conoce como «páginas huérfanas»).
- Informa sobre actualizaciones: El sitemap también puede incluir información sobre cuándo se actualizó una página por última vez, lo que puede animar a Google a rastrearla de nuevo.
- Prioriza el contenido: Ayuda a Google a entender qué páginas consideras más relevantes dentro de tu web.
¿Cómo se crea y gestiona un Sitemap en WordPress?
Afortunadamente, no necesitas crearlo a mano. Los plugins de SEO modernos hacen todo el trabajo por ti:
- Plugins como Rank Math o Yoast SEO generan y actualizan automáticamente tu sitemap cada vez que publicas o actualizas una entrada o página.
- Normalmente, puedes encontrar tu sitemap añadiendo
/sitemap_index.xmlal final de tu dominio (ej.https://tusitio.com/sitemap_index.xml). - El último paso es enviar la URL de tu sitemap a Google a través de Google Search Console (lo veremos más adelante), para que Google sepa oficialmente dónde encontrarlo.
Robots.txt: Las Reglas de la Casa
El archivo robots.txt es un simple archivo de texto que se coloca en el directorio raíz de tu sitio web (ej. https://tusitio.com/robots.txt). Su función es dar instrucciones a los bots de los motores de búsqueda sobre qué partes de tu web NO tienen permitido rastrear.
¿Por qué querrías bloquear a Google de ciertas partes de tu web?
No todo el contenido de tu web es útil para el público. Bloquear ciertas secciones ayuda a Google a centrar su «presupuesto de rastreo» (el tiempo y los recursos que dedica a tu web) en las páginas que realmente importan.
Qué deberías bloquear (ejemplos comunes):
- Las páginas de administración de WordPress (como
/wp-admin/). - Los resultados de búsqueda internos de tu web.
- Páginas de carrito, checkout o cuentas de usuario.
- Archivos PDF o documentos privados que no quieres que aparezcan en Google.
La Sintaxis Básica de Robots.txt
El archivo se compone de directivas simples:
User-agent:Especifica a qué bot se aplica la regla. Usar un asterisco (*) significa que se aplica a todos los bots.Disallow:Indica la ruta de la carpeta o archivo que no quieres que se rastree. Por ejemplo,Disallow: /wp-admin/.Allow:Se usa para permitir el rastreo de un subdirectorio o archivo específico dentro de una carpeta que ha sido bloqueada.
Ejemplo de un archivo robots.txt simple para WordPress:
User-agent: *Disallow: /wp-admin/Allow: /wp-admin/admin-ajax.php
Este ejemplo le dice a todos los bots que no entren en la carpeta de administración, excepto para acceder al archivo admin-ajax.php, que es necesario para el correcto funcionamiento de muchos temas y plugins.
Al igual que con el sitemap, los plugins de SEO como Rank Math te permiten editar tu archivo robots.txt directamente desde el panel de WordPress, facilitando enormemente su gestión.
En resumen, usar el sitemap es como decirle a Google «¡Oye, por favor, mira estas páginas tan importantes!», mientras que usar el archivo robots.txt es como decirle «Por favor, no pierdas el tiempo mirando en estas otras zonas». Ambos son esenciales para una comunicación clara y un rastreo eficiente.
Lecciones de este modúlo:
https://curso-seo.com/lecciones-seo/leccion-5-4-sitemaps-y-robots-txt/
https://curso-seo.com/lecciones-seo/leccion-5-5-contenido-duplicado-y-etiquetas-canonicas/