SEO Programatico y Growth Texto Leccion

Sitemap y robots: controlar crawling

Sitemap y robots.txt: controlar el rastreo Antes de posicionar, Google tiene que descubrir e indexar tus páginas. Dos archivos gobiernan ese proceso: el sitemap.xml, que es la lista de las URLs que quieres que se indexen, y el robots.txt, que indica qué partes del sitio no debe rastrear. En pSEO, con cientos de páginas, controlarlos bien es indispensable. El sitemap.xml Es un archivo que enumera tus URLs importantes y ayuda a Google a encontrarlas rápido, sobre todo las nuevas o profundas. Cada

Tiempo de estudio

16 Min

Sitemap y robots.txt: controlar el rastreo

Antes de posicionar, Google tiene que descubrir e indexar tus páginas. Dos archivos gobiernan ese proceso: el sitemap.xml, que es la lista de las URLs que quieres que se indexen, y el robots.txt, que indica qué partes del sitio no debe rastrear. En pSEO, con cientos de páginas, controlarlos bien es indispensable.

El sitemap.xml

Es un archivo que enumera tus URLs importantes y ayuda a Google a encontrarlas rápido, sobre todo las nuevas o profundas. Cada entrada puede incluir la fecha de última modificación.

<?xml version="1.0" encoding="UTF-8"?>

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

  <url>

    <loc>https://tusitio.com/seo/programatico</loc>

    <lastmod>2026-06-15</lastmod>

  </url>

</urlset>

Cada sitemap admite hasta 50.000 URLs. Si superas ese número, divídelo en varios y crea un sitemap index que los agrupe.

El robots.txt

Vive en la raíz (tusitio.com/robots.txt) y bloquea el rastreo de rutas que no aportan valor en búsqueda: paneles de administración, endpoints de API, páginas de filtros infinitos.

User-agent: *

Disallow: /api/

Disallow: /admin/

Allow: /



Sitemap: https://tusitio.com/sitemap.xml

Atención

No confundas bloquear en robots.txt con desindexar. Si bloqueas una URL en robots.txt, Google no puede rastrearla, pero podría seguir mostrándola si otros la enlazan. Para sacar una página del índice usa la etiqueta <meta name="robots" content="noindex">, y para ello la página NO debe estar bloqueada en robots.txt (si lo está, Google no leerá el noindex).

Quieres que una página deje de aparecer en Google. ¿Qué haces?

Para desindexar necesitas la etiqueta noindex, y Google debe poder rastrear la página para leerla. Si la bloqueas en robots.txt, nunca verá el noindex. Quitarla del sitemap por sí solo no la desindexa.

Ejercicio práctico

Objetivo: auditar el rastreo de un sitio.

Visita tusitio.com/robots.txt y verifica qué rutas estás bloqueando.

Confirma que el sitemap está declarado en el robots.txt y accesible.

Revisa que las páginas privadas o de API estén bloqueadas y las públicas no.

Identifica una página que quieras desindexar y aplica meta robots noindex (sin bloquearla en robots).

Entregable: un robots.txt revisado y la lista de URLs marcadas como noindex.

Para recordar

El sitemap lista lo que quieres indexar (hasta 50.000 URLs por archivo).
robots.txt controla qué se rastrea, no qué se indexa.
Para desindexar usa meta robots noindex y no bloquees esa URL en robots.

Texto Lessons

Intento de busqueda: la unica keyword que importa

Templates + data: el motor del pSEO