Mostrando entradas con la etiqueta JSON. Mostrar todas las entradas
Mostrando entradas con la etiqueta JSON. Mostrar todas las entradas

martes, julio 08, 2025

Cómo WebScrapear al WebScraper que ya WebScrapeó sin que tengas que hacer WebScraping

En toda esta batalla por de quién son los datos de la Web pública, donde muchos generadores de contenido están comenzando a bloquear. las bots de los principales modelos de IA, o a utilizar herramientas de cobro por acceso a contenido como Pay per Crawl, hay una técnica que está utilizando mucha gente, que es pedirle los datos al modelo de IA que él ya ha "WebScrapeado".

Figura 1: Cómo WebScrapear al WebScraper que ya WebScrapeó
sin que tengas que hacer WebScraping

Con toda esta polémica puedes ver cómo ciertos medios, como por ejemplo El Mundo, ya restringe su contenido para las arañas de Internet, que están haciendo su negocio de Answering Machine y de Comercialización de APIs - que dan datos - para generar sus ingresos.

Figura 2: El periódico El Mundo bloquea el acceso a los bots de IA

Pero igual que ellos han hecho su modelo con la captura de los datos de la Web, muchas aplicaciones están haciendo lo mismo con ellos. 

Basta con pedirle que te de los datos ya filtrados y formateados. Eso sí, tienes que tener cuidado con los límites de tokens que responden, así que puede que tengas que pedirlos por partes, y puede que tengan detección de "abuso", pero al final, se supone que un API comercial de un modelo de IA se paga porque te da respuestas.

Figura 4: Un JSON con datos sin WebScrapear nada

Por ejemplo, aquí podéis ver que le he pedido un JSON con los datos de la Primera Plantilla del Real Madrid C.F. con los datos que me han parecido bien, para utilizar en mis cosas. Son datos que él ha sacado de "dónde sea", y que son accesibles vía esta API, así que .. ¿para que WebScrapear por ahí?

Figura 5: Un Script para WebScrapear sin WebScrapear usando ChatGPT

Si quisieras los datos de todos los jugadores de LA LIGA de este año tendrías que primero pedir los datos de los clubs, luego ir pidiendo uno a uno los datos de todas las plantillas por separado, y en unos minutos, listo, ya tienes todos los datos. Además, le puedes pedir que te haga el Script en Python para pedírselo a ChatGPT.

Figura 6: El Script en Python para sacar los datos de ChatGPT

Estos datos no tendrían los cambios de última hora, sino los que hubiera en el último WebScraping que hiciera su bot. Pero seguro que para mucho de lo que necesitas en un determinado servicio es más que suficiente, ¿verdad? 

Figura 7: Pidiéndole el JSON de los "Irons" a DeepSeek

Lo mismo, ahora con los datos de los discos de los Iron Maiden, aunque como son muchos, hay que hacerlo poco a poco, o por tipos, pero la verdad es que es increíble como se construye una base de datos sin pasar por "No soy un robot", luchar con captchas, etc.. 

Figura 8: Marchado un JSON

Esto da mucho que pensar, sobre todo porque estos datos iniciales están en una web que un bot para hacer AI ha WebScrapeado, pero que comercializa vía API o vía Suscripción a la Answering Machine, y donde el que los genera no es parte del negocio. Da que pensar, ¿no?

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


sábado, noviembre 05, 2016

MetaShield Protector Clean-UP Online & Analyzer

Ha pasado justo un mes desde que tuvimos nuestro Security Innovation Day 2016, pero aún no he terminado de contaros todas las novedades de seguridad que anunciamos allí. Hoy quiero hablar de otra actualización que hicimos en la familia de productos Metashield Protector. En este caso con Metashield Protector Clean-Up Online y Metashield Analyzer.

Figura 1: Metashield Protector Clean-Up Online & Analyzer

Como ya sabréis los que llevéis leyendo tiempo este blog, MetaShield Protector es un producto que creamos para evitar que hubiera fugas de información de datos sensibles de la empresa a partir de metadatos e información oculta en documentos ofimáticos que salen de la organización. Cada vez que se edita o se crea un documento, éste almacena información del equipo y/o la red desde donde se editó, llevándose información de software, direcciones IP, nombres de usuario, etcétera. 
Para evitar esto creamos una familia de productos denominada Metashield Protector que revisan los documentos antes de que salgan de la organización. Desde la versión Client para eliminar los metadatos manualmente, hasta la versión Metashield Protector for Exchange que elimina las fugas de información en los archivos que salen como adjuntos de los correos electrónicos de la organización, pasando por la versión para MS Outlook, para Office 365, para los servidores de ficheros, o los servidores web.


Figura 3: Demo de Metashield para Office 365

La familia ha crecido mucho, e incluso se ha integrado en soluciones como Fortinet, donde cada documento que pasa por el firewall es enviado vía ICAP al motor de Metashield Protector para que sea limpiado, tal y como se ve en la demostración de 4 minutos que tienes en el vídeo.


Figura 4: Demostración de Metashield for ICAP integrado con Fortinet

Ahora, completamos el círculo con la versión Metashield Protector Clean-Up Online y con Metashield Analyzer, donde lo que hemos hecho ha sido crear una versión en modo portal web con una integración que puede recibir las peticiones vía API JSON para que desde cualquier rincón de tu organización, desde cualquier sistema, se pueda enviar un documento y recibir tanto el documento limpio, como los metadatos y la información oculta que se encontraba en él.


Figura 5: Metashield Clean-Up Online

Con estos dos productos, ampliamos un poco más la familia y permitimos a los clientes que puedan integrar la limpieza de documentos en los procesos de negocio que ellos quieran de la forma que quieran, además de darle a los administradores y consola centralizada para gestionar las fugas de información que se producen en sus empresas por medio del flujo de documentos.

Saludos Malignos!

martes, octubre 20, 2015

¿He sido hackeado? Un Bolt para Sinfonier y 3.000 USD

Hace no mucho tiempo que se ha habilitado el servicio He sido hackeado, una plataforma muy similar en concepto a la versión en inglés de Have I been Pwned? de la que he hablado muchas veces. El concepto consiste, en este caso, en recoger direcciones de correo electrónico que hayan podido ser filtradas no solo en grandes robos de bases de datos de identidades - incluyendo la de Ashely Madison que está vetada en otros sitios -, sino también añadir fugas de información masivas, como la de los correos de Hacking Team, o en pequeñas cantidades vía pastes, foros y redes diversas.

Figura 1: ¿He sido hackeado? Un Bolt para Sinfonier y 3.000 USD

Eso hace que a día de hoy cuente con una base de datos con más direcciones de correo electrónico que la página pionera en este concepto. Tiene una API abierta que se consulta de forma muy sencilla, devolviendo en un JSON no solo los datos de dónde se hizo la filtración, sino dando además los detalles concretos dentro de ella.

Figura 2: Fichero JSON de respuesta con datos de una filtración

Es decir, con los resultados se puede localizar el paste donde se publicó o la base de datos donde se encontró y la posición exacta de esa dirección de correo dentro de la filtración, lo que hace que sea muy útil para hacer investigaciones. Si además esta información está disponible en una URL de Internet tendremos el enlace directo a ella.

Figura 3: Detalle de una fuga de información con el lugar donde se ha producido.
421 GB de fugas de información.

La API no necesita ni autenticación ni nada similar, así que se puede integrar fácilmente con cualquier servicio que se esté realizando y, como prueba de concepto, uno de nuestros compañeros en ElevenPaths ha hecho un Bolt para Sinfonier que hace uso de esta API. En el siguiente vídeo se puede ver cómo se puede integrar ya en las topologías de Sinfonier el consumo de esta API de forma sencilla.

Figura 4: Vídeo de Bolt en Sinfonier para el servicio "¿Me han hackeado?"

Al final, el poder consultar si un correo electrónico ha sido filtrado en Internet puede ayudar a mejorar la calidad de las tomas de decisión en muchos procesos de negocio, pero también a detectar una fuga de datos, un ataque a una organización o un bug en un sistema, por lo que tiene utilidad. Recuerda que con Sinfonier se pueden hacer cosas tales como controlar un bot de Telegram usando Latch. En este libro de Sinfonier para ciberseguridad tienes todos los detalles de la plataforma.

Figura 5: Sinfonier Community Contest '15

Si a partir de este Bolt, y utilizando Sinfonier, se te ocurren mejores Bolts o alguna Topología interesante de Sinfonier, recuerda que tenemos lanzado el Sinfonier Community Contest 2015, con lo que podrás ganar hasta 3.000 USD por tu mejor Bolt y 3.000 USD por la mejor Topología, así que anímate a hacerlo. En la Comunidad de Eleven Paths puedes consultar, preguntar y debatir sobre cualquier detalle que necesites referente a esto.

Saludos Malignos!

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Pocas veces me ha hecho tanta ilusión que saliera un nuevo libro en 0xWord como con este libro de " Hacking IA: Jailbreak, Prompt Inje...

Entradas populares