Agentic Internet y Captchas Cognitivos con MM-LLMs
Esta semana pasada, hablando con uno de los ingenieros más top aquí en Cloudflare, hablábamos del Agentic Internet y los Captchas Cognitivos - que hemos estado en la Agentic Week y ha sido un avalancha de cosas -. Hemos pasado de diseñar interfaces de usuario creados para humanos "Human First" a un mundo de automatización con evoluciones hacia "API First" para que las capacidades sean disfrutadas por servicios digitales, y ahora a "MCP & Agentic First" haciendo que las utilidades sean Command Line Interface (modo texto) y que las respuestas sean en formatos JSON y Markdown para garantizar el entendimiento fácil de los MultiModal LLMs.
Pero en el camino nos encontramos que aún estamos en esa fase de migración, y muchos de los servicios de Internet diseñados "Human First" mantienen los Captchas Cognitivos para dificultar la automatización. Sorprendentemente, ahora queremos que nuestros Agentes IA utilicen esas capacidades en nuestro nombre, pero no tienen API, MCP o CLI y hay que hacer que lo usen lidiando con el Captcha Cognitivo.
Hablando de esto con mi compañero, le estaba explicando cómo este problema en el mundo del crimeware hace tiempo que lo tienen resuelto, y todo lo que hemos estado publicando por aquí para saltar los Captchas Cognitivos con MM-LLMs, teniendo en cuenta Captchas visuales, auditivos, de reconocimiento de cosas, o de resolución de problemas.
- Inteligencia Artificial y el negocio de resolver "Capthas Cognitivos" para el Cibercrimen
- Captcha Cognitivo de Twitter (X) con GPT4-Vision & Gemini
- Captcha Cognitivo de Twitter (X) con Anthropic Claude 3.0 Opus
- Captcha Cognitivo de Twitter (X) con GPT-4o
- Captcha Cognitivo de Administración Pública con ChatGPT
- Captcha Cognitivo de la mano y la plancha en HBO max
- Captcha Story X: I am not a Robot, I am a GenAI Multimodal Agent
- Reto hacking con un Captcha Cognitivo para romper con GenAI
- Solución al Reto de Hacking de un Captcha Cognitivo Visual
- Anthropic Claude 3.5 Sonnet & Cognitive Captchas
- LinkedIN + ChatGPT: El Captcha Cognitivo del Objeto Descolocado
- Captcha Cognitivo de Twitter / X de Sentar Personas Correctamente: Probando con ChatGPT & Gemini
- Cómo resolver los Captchas Cognitivos Visuales y Auditivos de GitHub con Gemini (o cualquier MM-LLM) sin despeinarte
- Captchas Cognitivos: Más fácil con IA que con ojos
Sin embargo, cuando hablamos de esto, el debate era si el MM-LLM iba a dejar resolver el Captcha Cognitivo o no. Y por supuesto, la respuesta es que si el MM-LLM tiene un System Prompt con Guardrails preparado para el mundo B2C y B2B seguramente no permita esto, y hay que hacer un poco de Jailbreak, pero nada complicado.
escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord
Al final, como veíamos en el último ejemplo de Jailbreak con Nano Banana y el test de COVID, con cambiar el foco del trabajo, es más que suficiente hoy en día. Veremos en el futuro. Pero lo cierto es que si le pides que te ayude a automatizar la resolución de Captchas Cogntivos - por ejemplo a Gemini - te dice que no está diseñado para eso y que no puede ayudarme por sus controles de seguridad.
Por supuesto. Hay que pedírselo de otra forma, pero no demasiado diferente. Por ejemplo, en este Captcha Cognitivo que me ha salido en una web, hay que seleccionar los parking slots libres. Si dejas al MM-LLM tirar millas solo, puede suceder como podéis ver aquí, que no lo resuelve bien. Eso sí, no se niega.
Figura 5: ¿Me ayudas a resolver este puzzle?
Para evitar esto, lo que hacen todos los que proveen APIs de resolución de Captchas, este tipo de Captchas Cognitivos los analizan como familia y guían al MM-LLM con el trabajo exacto que quieren hacer, en este caso sería algo como esto.
Y listo, los resultados listos para devolver en un API que puedas entregar a tu Agente IA cuando necesite resolver este tipo de Captchas Cognitivos.
Al final, lo que hacen estas APIs de resolución de Captchas Cognitivos es reconocer el tipo de Captcha que hay que resolver, que tampoco son tantos, y para cada uno de ellos tener a sus MM-LLMs o incluso cosas más sencillas, preparados para resolverlo de forma única. Otro caso similar, mismo Prompt.
Al final, es como resolver un Cubo de Rubik. Es un problema cognitivo complejo pero que se resuelve de pocas formas. Conocida una forma, da igual cómo te den las piezas, se resuelve igual. Lo mismo sucede con los Captchas Cognitivos que estamos resolviendo hoy en día.
Esto de los Captchas Cognitivos, con el mundo del Agentic AI aquí, donde tenemos más de un 30% del tráfico mundial HTTP generado por Bots - y creciendo - tenemos que repensarlo. ¿Es esta la solución tecnológica que queremos para el Agentic Internet?
Está claro que este mundo está cambiado muy rápidamente y que vamos a tener que transformar todas las piezas tecnológicas que tenemos en Internet, porque esta revolución de Agentic Internet es más grande y más profunda que las anteriores de Human Internet, Mobile Internet, Voz, VR o API First. Los Agentes IA están comiéndose el escenario, y puede que un par de años el tráfico humano solo sea entre una persona y sus agentes, veremos.
Figura 12: Hacking & Pentesting con Inteligencia Artificial.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)




DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 

















No hay comentarios:
Publicar un comentario