SEO Programatico y Growth

Sitemap y robots: controlar crawling

Sitemap y robots.txt: controlar el rastreo Antes de posicionar, Google tiene que descubrir e indexar tus páginas. Dos archivos gobiernan ese proceso: el sitemap.xml, que es la lista de las URLs que quieres que se indexen, y el robots.txt, que indica qué partes del sitio no debe rastrear. En pSEO, con cientos de páginas, controlarlos bien es indispensable. El sitemap.xml Es un archivo que enumera tus URLs importantes y ayuda a Google a encontrarlas rápido, sobre todo las nuevas o profundas. Cada
Tiempo de estudio
16 Min

Sitemap y robots.txt: controlar el rastreo


Antes de posicionar, Google tiene que descubrir e indexar tus páginas. Dos archivos gobiernan ese proceso: el sitemap.xml, que es la lista de las URLs que quieres que se indexen, y el robots.txt, que indica qué partes del sitio no debe rastrear. En pSEO, con cientos de páginas, controlarlos bien es indispensable.



El sitemap.xml


Es un archivo que enumera tus URLs importantes y ayuda a Google a encontrarlas rápido, sobre todo las nuevas o profundas. Cada entrada puede incluir la fecha de última modificación.


<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://tusitio.com/seo/programatico</loc>
<lastmod>2026-06-15</lastmod>
</url>
</urlset>

Cada sitemap admite hasta 50.000 URLs. Si superas ese número, divídelo en varios y crea un sitemap index que los agrupe.



El robots.txt


Vive en la raíz (tusitio.com/robots.txt) y bloquea el rastreo de rutas que no aportan valor en búsqueda: paneles de administración, endpoints de API, páginas de filtros infinitos.


User-agent: *
Disallow: /api/
Disallow: /admin/
Allow: /

Sitemap: https://tusitio.com/sitemap.xml


Atención

No confundas bloquear en robots.txt con desindexar. Si bloqueas una URL en robots.txt, Google no puede rastrearla, pero podría seguir mostrándola si otros la enlazan. Para sacar una página del índice usa la etiqueta <meta name="robots" content="noindex">, y para ello la página NO debe estar bloqueada en robots.txt (si lo está, Google no leerá el noindex).



Quieres que una página deje de aparecer en Google. ¿Qué haces?

Para desindexar necesitas la etiqueta noindex, y Google debe poder rastrear la página para leerla. Si la bloqueas en robots.txt, nunca verá el noindex. Quitarla del sitemap por sí solo no la desindexa.


Ejercicio práctico


Objetivo: auditar el rastreo de un sitio.



  1. Visita tusitio.com/robots.txt y verifica qué rutas estás bloqueando.

  2. Confirma que el sitemap está declarado en el robots.txt y accesible.

  3. Revisa que las páginas privadas o de API estén bloqueadas y las públicas no.

  4. Identifica una página que quieras desindexar y aplica meta robots noindex (sin bloquearla en robots).


Entregable: un robots.txt revisado y la lista de URLs marcadas como noindex.



Para recordar

  • El sitemap lista lo que quieres indexar (hasta 50.000 URLs por archivo).
  • robots.txt controla qué se rastrea, no qué se indexa.
  • Para desindexar usa meta robots noindex y no bloquees esa URL en robots.
Texto Leccion 1/12
Estas viendo
Sitemap y robots: controlar crawling
Hablar por WhatsAppContactar por WhatsApp