martes, julio 08, 2025

Cómo WebScrapear al WebScraper que ya WebScrapeó sin que tengas que hacer WebScraping

En toda esta batalla por de quién son los datos de la Web pública, donde muchos generadores de contenido están comenzando a bloquear. las bots de los principales modelos de IA, o a utilizar herramientas de cobro por acceso a contenido como Pay per Crawl, hay una técnica que está utilizando mucha gente, que es pedirle los datos al modelo de IA que él ya ha "WebScrapeado".

Figura 1: Cómo WebScrapear al WebScraper que ya WebScrapeó
sin que tengas que hacer WebScraping

Con toda esta polémica puedes ver cómo ciertos medios, como por ejemplo El Mundo, ya restringe su contenido para las arañas de Internet, que están haciendo su negocio de Answering Machine y de Comercialización de APIs - que dan datos - para generar sus ingresos.

Figura 2: El periódico El Mundo bloquea el acceso a los bots de IA

Pero igual que ellos han hecho su modelo con la captura de los datos de la Web, muchas aplicaciones están haciendo lo mismo con ellos. Basta con pedirle que te de los datos ya filtrados y formateados. Eso sí, tienes que tener cuidado con los límites de tokens que responden, así que puede que tengas que pedirlos por partes, y puede que tengan detección de "abuso", pero al final, se supone que un API comercial de un modelo de IA se paga porque te da respuestas.

Figura 3: Un JSON con datos sin WebScrapear nada

Por ejemplo, aquí podéis ver que le he pedido un JSON con los datos de la Primera Plantilla del Real Madrid C.F. con los datos que me han parecido bien, para utilizar en mis cosas. Son datos que él ha sacado de "dónde sea", y que son accesibles vía esta API, así que .. ¿para que WebScrapear por ahí?

Figura 4: Un Script para WebScrapear sin WebScrapear usando ChatGPT

Si quisieras los datos de todos los jugadores de LA LIGA de este año tendrías que primero pedir los datos de los clubs, luego ir pidiendo uno a uno los datos de todas las plantillas por separado, y en unos minutos, listo, ya tienes todos los datos. Además, le puedes pedir que te haga el Script en Python para pedírselo a ChatGPT.

Figura 5: El Script en Python para sacar los datos de ChatGPT

Estos datos no tendrían los cambios de última hora, sino los que hubiera en el último WebScraping que hiciera su bot. Pero seguro que para mucho de lo que necesitas en un determinado servicio es más que suficiente, ¿verdad? 

Figura 6: Pidiéndole el JSON de los "Irons" a DeepSeek

Lo mismo, ahora con los datos de los discos de los Iron Maiden, aunque como son muchos, hay que hacerlo poco a poco, o por tipos, pero la verdad es que es increíble como se construye una base de datos sin pasar por "No soy un robot", luchar con captchas, etc.. 

Figura 7: Marchado un JSON

Esto da mucho que pensar, sobre todo porque estos datos iniciales están en una web que un bot para hacer AI ha WebScrapeado, pero que comercializa vía API o vía Suscripción a la Answering Machine, y donde el que los genera no es parte del negocio. Da que pensar, ¿no?

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares