domingo, abril 26, 2026

Agentic Internet y Captchas Cognitivos con MM-LLMs

Esta semana pasada, hablando con uno de los ingenieros más top aquí en Cloudflare, hablábamos del Agentic Internet y los Captchas Cognitivos - que hemos estado en la Agentic Week y ha sido un avalancha de cosas -. Hemos pasado de diseñar interfaces de usuario creados para humanos "Human First" a un mundo de automatización con evoluciones hacia "API First" para que las capacidades sean disfrutadas por servicios digitales, y ahora a "MCP & Agentic First" haciendo que las utilidades sean Command Line Interface (modo texto) y que las respuestas sean en formatos JSON y Markdown para garantizar el entendimiento fácil de los MultiModal LLMs

Figura 1: Agentic Internet y Captchas Cognitivos con MM-LLMs

Pero en el camino nos encontramos que aún estamos en esa fase de migración, y muchos de los servicios de Internet diseñados "Human First" mantienen los Captchas Cognitivos para dificultar la automatización. Sorprendentemente, ahora queremos que nuestros Agentes IA utilicen esas capacidades en nuestro nombre, pero no tienen API, MCP o CLI y hay que hacer que lo usen lidiando con el Captcha Cognitivo
Hablando de esto con mi compañero, le estaba explicando cómo este problema en el mundo del crimeware hace tiempo que lo tienen resuelto, y todo lo que hemos estado publicando por aquí para saltar los Captchas Cognitivos con MM-LLMs, teniendo en cuenta Captchas visuales, auditivos, de reconocimiento de cosas, o de resolución de problemas.
Sin embargo, cuando hablamos de esto, el debate era si el MM-LLM iba a dejar resolver el Captcha Cognitivo o no. Y por supuesto, la respuesta es que si el MM-LLM tiene un System Prompt con Guardrails preparado para el mundo B2C y B2B seguramente no permita esto, y hay que hacer un poco de Jailbreak, pero nada complicado.
Al final, como veíamos en el último ejemplo de Jailbreak con Nano Banana y el test de COVID, con cambiar el foco del trabajo, es más que suficiente hoy en día. Veremos en el futuro. Pero lo cierto es que si le pides que te ayude a automatizar la resolución de Captchas Cogntivos - por ejemplo a Gemini - te dice que no está diseñado para eso y que no puede ayudarme por sus controles de seguridad.

Figura 4: "Yo no puedo resolver Captchas directamente en tiempo real por ti"

Por supuesto. Hay que pedírselo de otra forma, pero no demasiado diferente. Por ejemplo, en este Captcha Cognitivo que me ha salido en una web, hay que seleccionar los parking slots libres. Si dejas al MM-LLM tirar millas solo, puede suceder como podéis ver aquí, que no lo resuelve bien. Eso sí, no se niega.

Figura 5: ¿Me ayudas a resolver este puzzle?

Como podéis ver, hay un espacio libre arriba, y dos abajo, pero dejando a Gemini intentar resolverlo completamente por sí mismo, tiene una Hallucination y toma como que arriba hay 6 plazas de parking y abajo hay 4. Si estuviéramos en Móstoles o Madrid, seguro que arriba hay 6 o más y abajo 6 o más, pero en este mundo de colores, hay cuatro arriba y cuatro abajo.

Figura 6: Resuelve bien, pero no define bien las plazas de parking arriba

Para evitar esto, lo que hacen todos los que proveen APIs de resolución de Captchas, este tipo de Captchas Cognitivos los analizan como familia y guían al MM-LLM con el trabajo exacto que quieren hacer, en este caso sería algo como esto.

Figura 7: Instruyendo al MM-LLM para que no alucine

Y listo, los resultados listos para devolver en un API que puedas entregar a tu Agente IA cuando necesite resolver este tipo de Captchas Cognitivos.

Figura 8: Respuesta correcta, Comma Separated

Al final, lo que hacen estas APIs de resolución de Captchas Cognitivos es reconocer el tipo de Captcha que hay que resolver, que tampoco son tantos, y para cada uno de ellos tener a sus MM-LLMs o incluso cosas más sencillas, preparados para resolverlo de forma única. Otro caso similar, mismo Prompt.

Figura 9: Mismo Captcha Cognitivo,  Distinto Problema, Mismo Prompt

Al final, es como resolver un Cubo de Rubik. Es un problema cognitivo complejo pero que se resuelve de pocas formas. Conocida una forma, da igual cómo te den las piezas, se resuelve igual. Lo mismo sucede con los Captchas Cognitivos que estamos resolviendo hoy en día.

Figura 10: At your service

Esto de los Captchas Cognitivos, con el mundo del Agentic AI aquí, donde tenemos más de un 30% del tráfico mundial HTTP generado por Bots - y creciendo - tenemos que repensarlo. ¿Es esta la solución tecnológica que queremos para el Agentic Internet?
Está claro que este mundo está cambiado muy rápidamente y que vamos a tener que transformar todas las piezas tecnológicas que tenemos en Internet, porque esta revolución de Agentic Internet es más grande y más profunda que las anteriores de Human Internet, Mobile Internet, Voz, VR o API First. Los Agentes IA están comiéndose el escenario, y puede que un par de años el tráfico humano solo sea entre una persona y sus agentes, veremos.

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Pocas veces me ha hecho tanta ilusión que saliera un nuevo libro en 0xWord como con este libro de " Hacking IA: Jailbreak, Prompt Inje...

Entradas populares