domingo, abril 26, 2026

Agentic Internet y Captchas Cognitivos con MM-LLMs

Esta semana pasada, hablando con uno de los ingenieros más top aquí en Cloudflare, hablábamos del Agentic Internet y los Captchas Cognitivos - que hemos estado en la Agentic Week y ha sido un avalancha de cosas -. Hemos pasado de diseñar interfaces de usuario creados para humanos "Human First" a un mundo de automatización con evoluciones hacia "API First" para que las capacidades sean disfrutadas por servicios digitales, y ahora a "MCP & Agentic First" haciendo que las utilidades sean Command Line Interface (modo texto) y que las respuestas sean en formatos JSON y Markdown para garantizar el entendimiento fácil de los MultiModal LLMs

Figura 1: Agentic Internet y Captchas Cognitivos con MM-LLMs

Pero en el camino nos encontramos que aún estamos en esa fase de migración, y muchos de los servicios de Internet diseñados "Human First" mantienen los Captchas Cognitivos para dificultar la automatización. Sorprendentemente, ahora queremos que nuestros Agentes IA utilicen esas capacidades en nuestro nombre, pero no tienen API, MCP o CLI y hay que hacer que lo usen lidiando con el Captcha Cognitivo
Hablando de esto con mi compañero, le estaba explicando cómo este problema en el mundo del crimeware hace tiempo que lo tienen resuelto, y todo lo que hemos estado publicando por aquí para saltar los Captchas Cognitivos con MM-LLMs, teniendo en cuenta Captchas visuales, auditivos, de reconocimiento de cosas, o de resolución de problemas.
Sin embargo, cuando hablamos de esto, el debate era si el MM-LLM iba a dejar resolver el Captcha Cognitivo o no. Y por supuesto, la respuesta es que si el MM-LLM tiene un System Prompt con Guardrails preparado para el mundo B2C y B2B seguramente no permita esto, y hay que hacer un poco de Jailbreak, pero nada complicado.
Al final, como veíamos en el último ejemplo de Jailbreak con Nano Banana y el test de COVID, con cambiar el foco del trabajo, es más que suficiente hoy en día. Veremos en el futuro. Pero lo cierto es que si le pides que te ayude a automatizar la resolución de Captchas Cogntivos - por ejemplo a Gemini - te dice que no está diseñado para eso y que no puede ayudarme por sus controles de seguridad.

Figura 4: "Yo no puedo resolver Captchas directamente en tiempo real por ti"

Por supuesto. Hay que pedírselo de otra forma, pero no demasiado diferente. Por ejemplo, en este Captcha Cognitivo que me ha salido en una web, hay que seleccionar los parking slots libres. Si dejas al MM-LLM tirar millas solo, puede suceder como podéis ver aquí, que no lo resuelve bien. Eso sí, no se niega.

Figura 5: ¿Me ayudas a resolver este puzzle?

Como podéis ver, hay un espacio libre arriba, y dos abajo, pero dejando a Gemini intentar resolverlo completamente por sí mismo, tiene una Hallucination y toma como que arriba hay 6 plazas de parking y abajo hay 4. Si estuviéramos en Móstoles o Madrid, seguro que arriba hay 6 o más y abajo 6 o más, pero en este mundo de colores, hay cuatro arriba y cuatro abajo.

Figura 6: Resuelve bien, pero no define bien las plazas de parking arriba

Para evitar esto, lo que hacen todos los que proveen APIs de resolución de Captchas, este tipo de Captchas Cognitivos los analizan como familia y guían al MM-LLM con el trabajo exacto que quieren hacer, en este caso sería algo como esto.

Figura 7: Instruyendo al MM-LLM para que no alucine

Y listo, los resultados listos para devolver en un API que puedas entregar a tu Agente IA cuando necesite resolver este tipo de Captchas Cognitivos.

Figura 8: Respuesta correcta, Comma Separated

Al final, lo que hacen estas APIs de resolución de Captchas Cognitivos es reconocer el tipo de Captcha que hay que resolver, que tampoco son tantos, y para cada uno de ellos tener a sus MM-LLMs o incluso cosas más sencillas, preparados para resolverlo de forma única. Otro caso similar, mismo Prompt.

Figura 9: Mismo Captcha Cognitivo,  Distinto Problema, Mismo Prompt

Al final, es como resolver un Cubo de Rubik. Es un problema cognitivo complejo pero que se resuelve de pocas formas. Conocida una forma, da igual cómo te den las piezas, se resuelve igual. Lo mismo sucede con los Captchas Cognitivos que estamos resolviendo hoy en día.

Figura 10: At your service

Esto de los Captchas Cognitivos, con el mundo del Agentic AI aquí, donde tenemos más de un 30% del tráfico mundial HTTP generado por Bots - y creciendo - tenemos que repensarlo. ¿Es esta la solución tecnológica que queremos para el Agentic Internet?
Está claro que este mundo está cambiado muy rápidamente y que vamos a tener que transformar todas las piezas tecnológicas que tenemos en Internet, porque esta revolución de Agentic Internet es más grande y más profunda que las anteriores de Human Internet, Mobile Internet, Voz, VR o API First. Los Agentes IA están comiéndose el escenario, y puede que un par de años el tráfico humano solo sea entre una persona y sus agentes, veremos.

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


sábado, abril 25, 2026

Los equipos de ingeniería que hacen software con Neo tiene ingenieros extra

Os he hablado varias veces de Neo de Sagittal.ai, pero hoy quería dejaros unos datos para que veáis como funciona como un miembro más haciendo tareas en la creación de softwareNeo no está pensado para ayudarte a tirar lineas de código como un Copiloto. No, Neo está pensado para hacer tareas que se necesitan dentro de un equipo de desarrollo y resolver PR.
Puede ser que esa tarea sea resolver un problema de diseño en Figma, o que haya que revisar la calidad de un parche, o puede ser que haya que resolver un issue reportado, es decir, mucho más que ayudarte como un Copilot a tirar líneas de código. Para que entendáis esto un poco mejor, os he dejado el artículo publicado de "Cómo solucionar tres "Big Problems" del "Agentic AI Coding" usando Neo" y os dejo la conferencia que dio Palako sobre Neo, que puedes ver aquí mismo.

Figura 2: Por qué la IA no ha mejorado el rendimiento de tus Developers ... por ahora

Es fácil, si te quedas a primera vista, confundir a Neo con un GitHub Copilot, o con un Claude Code o Llama Code, pero nada de eso. No es eso. Es un Agente IA de Ingeniería de Software para hacer tareas integrado en un equipo de desarrollo de tecnología. Por supuesto, si tiene que tirar líneas de código para resolver una PR lo hace, pero no sólo eso. Y por supuesto, tiene los mismos problemas que todos los modelos de IA tirando código.


Esto sucede con todos los modelos de IA que generan código hoy en día. Todos tienen esos problemas. De hecho, no hay magia, Neo no es un Modelo de IA entrenado para tirar código. No, ni mucho menos. Neo se basa en todos los Modelos de IA entrenados para tirar código para hacer sus tareas. ¿Cómo te quedas? Pues lo mismo que los Agentes IA que hacen pentesting, que se basan en modelos entrenados. 
No es magia, es que Neo es un Agente IA para trabajar en Ingeniería del Software haciendo tareas que hacen los ingenieros del software. Así que se asignan tareas, y algunas las hace bien, y otras las hace mal, com cualquier otro ingeniero.
Para que os hagáis una idea, en el equipo que desarrolla el core de Neo se usa.... Neo. Es decir, que se está construyendo Neo a sí mismo, pero si miramos las PR abandonadas y hechas por Neo podemos ver que más de la mitad no han sido hechas correctamente por Neo... ¿Eso significa que Neo no funciona? Eso significa que ha podido hacer casi la mitad de las tareas que se han asignado, que si lo comparas con el resto de miembros humanos es significativamente menor.
Si miramos, los humanos han resuelto más tareas, con un total de 207 y con sólo un 10% de abandonos. No está mal para el equipo. Es lo que sucede cuando tienes un grupo de buenos ingenieros currando en un proyecto de software. Pero entonces... ¿De qué vale Neo? Bueno, la magia es que si comparamos a Neo con cada uno de los desarrolladores del equipo lo que tenemos se ve de otra manera. ¿Qué te parece esta gráfica?
Como podéis ver en esa gráfica, incluso con las tareas abandonadas, Neo hace el trabajo de PRs dos ingenieros de software en el equipo. Con sus problemas, con sus limitaciones, con su necesaria supervisión, pero gracias a tener a Neo, el equipo de ingeniería ve multiplicada su velocidad de ingeniería no solo en tirar líneas de código, sino en hacer PRs del proyecto que si no tendrán que hacer el resto de tus programadores humanos.
Pero no sólo eso, es que a medida que el equipo sabe cuáles son las PR que Neo puede hacer, o cada vez que se incrementan sus capacidades, su capacidad de hacer más y mejor PRs crece, de manera consistente, por lo que es un miembro más confiable del equipo.

Figura 9: Por qué Neo

Neo está específicamente diseñado para un entorno corporativo con equipos de entre 15 personas que siguen un proceso, ya sea ligero o pesado, coordinado en herramientas colaborativas y donde la especificación suele estar dispersa en varias herramientas y cambia constantemente. Y si es tu caso, deberías probarlo cuanto antes. Eso sí, sólo si eres de los que cree que meterse en líos de Deuda Cognitiva es algo a evitar.


Puedes ver varias demos de Neo en acción para hacerte una mejor idea del concepto, y contactar con Sagittal AI para un piloto en tu empresa.
Además si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Pocas veces me ha hecho tanta ilusión que saliera un nuevo libro en 0xWord como con este libro de " Hacking IA: Jailbreak, Prompt Inje...

Entradas populares