Los sitemaps XML son archivos en formato XML creados específicamente para el Web Bot. Se trata de es una lista de todas las URL de un sitio web que tienen un código de estado 200. Se puede comparar el mapa del sitio XML con un índice de contenidos, que indica al crawler qué URL deben indexarse. Pero lo que es interesante para el robot web es casi siempre desconocido para el usuario. Por cierto, el mapa del sitio XML no es accesible a través de la navegación del sitio web. Los sitemaps XML también desempeñan un papel importante en la optimización de los motores de búsqueda. Este formato de archivo se utiliza para controlar el rastreo de forma selectiva.
Los sitemaps XML permiten a los motores de búsqueda capturar e indexar completamente todas las URL relevantes de un sitio web. Incluso las URL que están integradas de forma subóptima en el sitio web -y que, por tanto, son de difícil acceso- pueden incluirse en el mapa del sitio XML.
Para los sitios web con cambios frecuentes, la actualización periódica del mapa del sitio XML es muy útil. Una aplicación típica son las tiendas de comercio electrónico. Aquí, las páginas de detalles de los productos y otros contenidos cambian constantemente. La actualización regular del mapa del sitio XML envía señales importantes a los motores de búsqueda. Esto se puede acelerar un poco almacenando la versión actual del mapa del sitio XML en Google Search Console o en Bing Webmaster Tools.
La diferencia entre los mapas del sitio XML y los mapas del sitio HTML es que los primeros sólo se desarrollaron para los motores de búsqueda. Un mapa del sitio HTML es una reliquia de la época en que es no disponía de una navegación sofisticada. Con la ayuda del mapa del sitio HTML, los usuarios podían entender la estructura de un sitio web gracias a un diagrama de árbol. Es todavía tiene sitios web que incluyen un mapa del sitio HTML en el pie de página. Porque de vez en cuando, el bot también mira aquí. Al igual que ocurre con el mapa del sitio XML, el formato HTML sólo puede listar las URL indexables con el código de estado 200.
Algunas URL no deben incluirse en el mapa del sitio XML.