jueves, julio 03, 2025

CloudFlare Pay-Per-Crawl: Un servicio que ayuda a las webs a negociar el pago por acceso al contenido que hacen los crawlers de IA

Cuando llegaron las arañas de Internet o "crawlers" para indexar el contenido en las bases de datos de los buscadores, los creadores de contenido aceptaron - no sin demasiadas tensiones - un modelo de negocio en la web por el que los buscadores enviaban tráfico de sus búsquedas a los sitios web, para que estos pudieran monetizar su contenido con anuncios, campañas o ventas de servicios. Sin embargo, con la llegada de los buscadores basados en GenAI, la cosa ha cambiado mucho.

Los usuarios que buscan información en Perplexity, ChatGPT o el mismo Google que ha añadido el motor de GenAI al inicio de los resultados de sus búsquedas, el tráfico redirigido a los sitios web que proporcionan en el contenido, ha disminuido de forma drástica. No son pocas las quejas de sitios que han basado su estrategia comercial en ventas a través de ads en Google quejarse de que cada vez son más caros y de peor calidad los leads que llegan.

Figura 2: Google también pone el contenido generado por Gemini en las búsquedas.
Ejemplo con los ataques de CSPP (sacados de un paper que hice yo)

Aún así, los usuarios prefieren usar los buscadores de GenAI como "Answering Machine" en lugar de como una lista de sitios a visitar, lo que hace que el incremento de búsquedas en estos motores de GenAI se haya disparado, y que las visitas a los proveedores de contenido se haya disminuido. Un contenido de SEO para atraer tráfico y vender publicidad, hoy en día se consume en la web de GenAI sin generar ningún lead, lo que destroza el nivel de ingresos que los creadores en la web reciben. 

Figura 3: Contenido sobre CSPP en Perplexity extraido de los posts
de este blog y la presentación que usé en DefCON.

Por ejemplo, en la imagen anterior le he preguntado a Perplexity Pro por los ataques de Connection String Parameter Pollution, y como podéis ver ha usado mis diapositivas y mis artículos de este blog para responder al usuario, pero todo el contenido se entrega en su web. El usuario no visita las webs - si no hace clic en en los enlaces de referencia y eso es muy residual -, por lo que no hay modelo de anuncios, datos de los visitantes, etcétera. 

El negocio de la "Answering Maching"

Todo ese negocio y todos esos datos se los quedan los buscadores, que transforman el negocio de anuncios de los anunciantes en un modelo de suscripciones para ellos. Es decir, gracias a ser una "answering machine" con el contenido recogido de webs, blogs, periódicos, libros o diapositivas, crean un negocio de suscripciones y compañías de mucho valor.

Por supuesto, a esto hay que sumar que los datos que se llevan los crawlers para los modelos MM-LLM son usados para entrenarlos, con lo que hacen un doble aprovechamiento, para crear servicios que nada tienen que ver con el modelo de la web, sino licencias de desarrollo para uso en plataformas y servicios digitales basados en LLMs.

Esto ha llevado a que exista una corriente en el mundo para que los "crawlers" de AI paguen por el contenido que consumen, y la empresa CloudFlare acaba de poner en manos de todos sus clientes una herramienta para construir un servicio de Pay Per Crawl, y hacer un intercambio justo de pago por acceso a contenido.

CloudFlare Pay per Crawl


En la plataforma de CloudFlare, los administradores de los sitios web tienen el servicio de AI Audit, que permite saber qué crawlers están viniendo a tu web, qué se están llevando, cuando y cuanto. Lo curioso de esas peticiones es que generan gastos de Cloud en las webs, y si el "tradeof" es que no me traes clientes - DeepSeek no trae links, por ejemplo, y hay que pedirle que te dé links de forma expresa, si no, sólo da respuestas -, y me consume gastos de cloud, es bastante "unfair".
Con AI Audit puedes ver quién está viniendo a tu web a crawlear el contenido, y desde ahí puedes tomar una acción para permitirle que acceda a tu contenido o bloquearlo. Al final, gracias al servicio de WAF que tiene la plataforma de CloudFlare con sus clientes permite hacer esto de forma muy sencilla, como podéis ver en la siguiente arquitectura.
Ahora, con el servicio de Pay Per Crawl, se puede configurar el precio por acceso al contenido, y las arañas (o crawlers) deberán registrarse primeramente y obtener un par de claves para autenticarse en CloudFlare y poder llegar al contenido de sus clientes. Para ello tienen que generar un par de claves criptográficas para verificar sus bots, tal y como se explica en el artículo: "Forget IPs: using cryptography to verify bot and agent traffic".
Esto evita que sea tan fácil suplantar a un crawler como usar su USER-Agent, o que haya detectar a las arañas de los indexadores por sus direcciones IP. Así, identificando en la red de CloudFlare a los crawlers legítimos, es más fácil detectar a los WebScrappers que están suplantado a estos para robar contenido. A partir de ahí, cuando un crawler solicita un contenido, recibirá un 403 si el contenido es de pago para los crawlers, tal y como se ve en esta imagen.

Figura 7: Contenido de pago para los crawlers

Si el crawler esta dispuesto al pago, deberá hacer un solicitud aceptando el pago con el HTTP Header de "crawler-exact-price" que garantizará que está ok con el pago solicitado de ese contenido, que pasará a ser parte del dinero que reciba el generador de contenido por ser utilizado para alimentar la base de datos de ese agente.

Figura 8: Crawling con pago aceptado

Además, el crawler podrá enviar una oferta inicial de pago por el contenido, con el HTTP header de "crawler-max-price" lo que hará que si el dueño del contenido ha puesto un precio que entra dentro de ese rango, directamente se le entregue y se le carge.

Figura 9: El crawler paga hasta un max-price

Si el precio del contenido entra en ese rango, entonces automáticamente se le devuelve el contenido, y se le dice lo que se le ha cargado por ese contenido al que ha accedido.

Figura 10: Precio cargado en el HTTP header crawler-charged

Con este servicio, CloudFlare ha puesto una herramienta en manos de los publicadores de contenido que puede ayudarles a proteger su trabajo y recibir un pago justo por lo que hacen de las grandes empresas, que tienen valoraciones Billonarias y generan nuevos negocios, todos ellos basados en los datos que han generado otras empresas. Muy interesante este paso de industria.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares