Sitemap y robots: controlar crawling
Sitemap y robots.txt: controlar el rastreo
Antes de posicionar, Google tiene que descubrir e indexar tus páginas. Dos archivos gobiernan ese proceso: el sitemap.xml, que es la lista de las URLs que quieres que se indexen, y el robots.txt, que indica qué partes del sitio no debe rastrear. En pSEO, con cientos de páginas, controlarlos bien es indispensable.
El sitemap.xml
Es un archivo que enumera tus URLs importantes y ayuda a Google a encontrarlas rápido, sobre todo las nuevas o profundas. Cada entrada puede incluir la fecha de última modificación.
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://tusitio.com/seo/programatico</loc>
<lastmod>2026-06-15</lastmod>
</url>
</urlset>Cada sitemap admite hasta 50.000 URLs. Si superas ese número, divídelo en varios y crea un sitemap index que los agrupe.
El robots.txt
Vive en la raíz (tusitio.com/robots.txt) y bloquea el rastreo de rutas que no aportan valor en búsqueda: paneles de administración, endpoints de API, páginas de filtros infinitos.
User-agent: *
Disallow: /api/
Disallow: /admin/
Allow: /
Sitemap: https://tusitio.com/sitemap.xmlAtención
No confundas bloquear en robots.txt con desindexar. Si bloqueas una URL en robots.txt, Google no puede rastrearla, pero podría seguir mostrándola si otros la enlazan. Para sacar una página del índice usa la etiqueta <meta name="robots" content="noindex">, y para ello la página NO debe estar bloqueada en robots.txt (si lo está, Google no leerá el noindex).
Quieres que una página deje de aparecer en Google. ¿Qué haces?
Ejercicio práctico
Objetivo: auditar el rastreo de un sitio.
- Visita
tusitio.com/robots.txty verifica qué rutas estás bloqueando. - Confirma que el sitemap está declarado en el robots.txt y accesible.
- Revisa que las páginas privadas o de API estén bloqueadas y las públicas no.
- Identifica una página que quieras desindexar y aplica meta robots noindex (sin bloquearla en robots).
Entregable: un robots.txt revisado y la lista de URLs marcadas como noindex.
Para recordar
- El sitemap lista lo que quieres indexar (hasta 50.000 URLs por archivo).
- robots.txt controla qué se rastrea, no qué se indexa.
- Para desindexar usa meta robots noindex y no bloquees esa URL en robots.