miércoles, julio 09, 2025

GenAI Search Engine Optimization (GenAI SEO) con LLMs TXT

Desde hace muchos años configuramos en las páginas webs el famoso archivo ROBOTs.txt, que le dice a los buscadores qué queremos que se indexe y qué no queremos que se indexe. Y a los hackers qué cosas hay por ahí escondidas en esa web. Esto se extendió a una versión más detallada donde se le da información a los buscadores sobre todas las URLs del sitio que deben ser indexadas correctamente, y apareció el fichero sitemap.xml, que hoy se usa de manera masiva en casi todas las webs que quieren tener presencia en los buscadores.
Por el camino, ha habido otros ficheros TXT bastante curiosos, como el de HUMANS.txt que se propuso hace tiempo, y el que yo propuse para que los hackers supieran cómo iban a ser tratados cuando se buscaban o reportaban un bug, mi querido HACKERS.TXT. Esta misma idea luego se convirtió en una propuesta de formato estandarizado en el IETF llamada SECURITY.TXT. Pues con esa misma idea, pero pensando en hacer fácil la indexación de contenido para los LLMs, surgió LLMs.TXT
El formato es muy sencillo, y está definido por niveles. Se especifican las secciones de la web con una estructura por niveles, marcada por # o ##, se añaden descripciones, y luego se especifican las diferentes URLs de navegación de contenido, con una descripción opcional en ellas.
Lo que sí que es valioso para enriquecer el entendimiento de los enlaces, es especificar para cada uno de ellos la descripción en un formato sencillo como

#Datos de la web donde está el fichero LLMs.txt

> Resumen de la sección completa.
- Información sobre cosas que se pueden encontrar en esta sección
- Detalles de lo que hay en esta sección.
- Descripción de cosas importantes a saber.

## Sección 1 de la web

- [Título de la pagina a visitar] (URL de la pagina): Descripción de lo que hay allí.
- [Título de la pagina a visitar] (URL de la pagina): Descripción de lo que hay allí.
- [Título de la pagina a visitar] (URL de la pagina): Descripción de lo que hay allí.
- [Título de la pagina a visitar] (URL de la pagina): Descripción de lo que hay allí.
- [Título de la pagina a visitar] (URL de la pagina): Descripción de lo que hay allí.

Con una estructura similar a esa, puedes crear el fichero LLMs.TXT que ahora de forma automática te lo crean muchos gestores de páginas web, pero si aún no lo tienes en tu web y quieres tener un posicionamiento en los GenAI Search Engines, es importante que lo hagas correctamente.
Si miramos los datos, el coste de un Refer por número de Crawls es altísimo, y es un dato que si quieres optimizar para reducir costes de tu infraestructura, cualquier mejora que hagas con el fichero LLMs.TXT te vendrá bien.

Al final, hay que tener en cuenta que para conseguirse un solo HTTP-Referer de los resultados de un GenAI Search Engine se tiene que dar un montón de pasos. Primero hay que tener en cuenta que el GenAI Search Engine puede tener la respuesta sin necesidad de buscar. Y después, si decide que hay que buscar en la web por el tipo de Prompt el flujo es muy largo, como se ve en la imagen siguiente.

Figura 6: Proceso para conseguir un HTTP-Referer
desde un GenAI Search Engine


Si quieres jugar con esto, tienes muchas herramientas ya disponibles en la web de LLMs.txt, que puedes utilizar en tus proyectos, pero si usas plataformas CMS para gestionar tus páginas web, seguro que tienen allí también estas acciones. 
Lo que es importante es entender cómo funciona, para que sirve, y que los flujos de AI-Crawl to Human-Web/Mobile Content sea el que tú has definido, y que controles el flujo de cómo funciona tu contenido en los GenAI Search Engines. Esto aún va a dar muchas más vueltas, seguro...

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares