sábado, mayo 16, 2026

ExploitGym: Mythos, GPT 5.5, Gemini Pro en un CTF & Benchmark de hacer exploits

En el artículo de "El impacto de Mythos en concreto y la IA en general en el trabajo de los CISOs" donde os contaba cómo ha ido evolucionando el uso de los modelos LLMs en el mundo de la ciberseguridad en general, os contaba cómo se habían ido cubriendo las diferentes áreas con IA de forma muy rápida. Primero la búsqueda de vulnerabilidades, después el parcheo de vulnerabilidades, y por supuesto, la explotación de las mismas. 
Con la llegada de Mythos y GPT 5.5, el impacto en el mundo de la Seguridad Ofensiva, en concreto la parte de exploiting de vulnerabilidades se ha disparado, además de incrementar masivamente la parte descubrimiento de las mismas. La pregunta que queda en el aire, es... ¿cuánto de mejores son estos nuevos modelo en la estas funciones? ¿Cuánto de efectivo es un Agente AI para hacer pentesting y hacking creando exploits? Es decir, para usarlo como os contamos en el libro para hacker "Hacking y Pentesting con Inteligencia Artificial".
Esto es lo que se intenta medir en el paper de "ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks?" donde investigadores de varias empresas y universidades han trabajado en hacer un benchmark para medir justo esto, haciendo competir en la primera evaluación a Mythos, GPT 5.5, Gemini Pro y las versiones de Claude Opus 4.7 y 4.6, y que podéis leer aquí mismo.
Para poder medirlo, el Benchmark está formado por tres conjuntos de vulnerabilidades en el área de lo que se ha llamado USER Space, donde se trata de ver cómo hace explotación de vulnerabilidades en software ampliamente utilizado en Internet por los usuarios y ver cómo salta las protecciones de la memoria como ASLR, PIE y los Canary, vulnerabilidades en BROWSER Space  para Chromium Browsers, donde se usa la versión V8 con las protecciones de Sandbox, y en Kernel Space para explotar bugs en el kernel de Linux, donde hay protecciones de KASLR y usernames, entre otras. 
Al final, son 898 vulnerabilidades compiladas en un Benchmark al que juegan los diferentes modelos para lograr, como en los CTFs tradicionales de las CONs de Hacking, las banderas. Las flags. Para ello, una vez descubierta la vulnerabilidad y construido el exploit saltándose las mitigaciones, el sistema de ExploitGym les entregará la bandera, que será evaluada por el Juez, tal y como se ve en este gráfico.


Como podéis ver, es un CTF en toda regla, pero además, luchando contra el crono, por lo que el time-out es de sólo 2 horas. Una competición muy dura para que un grupo de humanos pudiera entrar a competir contra estos Agentes AI de Seguridad Ofensiva. Los resultados en la siguiente tabla.


Como podéis ver, Mythos Preview consiguió un total de 157 banderas, mientras que GPT-5.5 consiguió un total de 120. Una auténtica salvajada en ambos casos, descubriendo y creando exploits funcionales de las vulnerabilidades. Pero ojo cuidado, que los resultados aún fueron mayores que esos.

Figura 7: Flag-To-Success

En la tabla anterior se puede ver que Mythos Preview y GPT-5.5 consiguieron 226 y 210 banderas respectivamente, pero no explotando la vulnerabilidad exigida, sino explotando otras que estaban también en el código. Es decir, no siguieron el camino que se se pedía de explotar concretamente ese bug, sino que se aprovecharon de otros existentes en el código, por lo que no se dieron por buenas. Claro, a un atacante de verdad seguro que eso le da bastante igual.

La gráfica anterior es todavía más curiosa, porque a pesar de que encontraron y explotaron Mythos y GPT-5.5 un total de 91 banderas iguales, aún hubo 66 que explotó Mythos y no GPT-5.5 y al contrario, 29 que explotó GPT-5.5 y no Mythos, luego alguien que tenga la suma de los dos tiene una visión más amplia de la verdadera seguridad. Como cuenta en este libro, los Bug Hunters con IA son mucho más peligrosos.

Figura 9:"Bug Hunter" escrito por David Padilla en 0xWord

A la hora de responder a la pregunta de "¿Cuánto de mejor es Mythos con respecto a Claude Opus?", ya que vimos que era posible hacer un exploit en 20 horas a partir de un CVE, como os conté en el artículo de "Cómo crear un exploit 1-day sobre un CVE de Chrome con Vibe Coding usando Claude Opus (no Mythos) y poner en jaque todas las apps en Electron", la comparativa siguiente es clara. 
Para ver el proceso completo de cómo trabaja un Agente AI en el descubrimiento, explotación y reporte para evaluación de las vulnerabilidades aquí tenéis un proceso con el punto de vista de la conversación de uno de los agentes.
Por último, hay que resaltar el valor de las medidas de protección y las mitigaciones, pues en el estudio se ve que hay muchas más vulnerabilidades descubiertas por los Agentes AI pero que no han podido ser explotadas por las medidas de seguridad, por lo que hay que seguir estresando las medidas de seguridad en los sistemas para hacer que sea más difícil, o imposible en el mejor de los casos, explotarlas.


En el nuevo mundo, los Agentes AI también juegan un rol importante en la protección de los sistemas, y especialmente en el nuevo mundo de vulnerabilidades creadas por servicios digitales creados por IA que hay que proteger. Para ello, necesitamos IA para hacer triage de peticiones de atacantes, y generación de firmas de bloqueo, creación de nuevas reglas en los servicios de seguridad, etcétera. En el artículo de "Cómo desplegar IA con seguridad en la empresa" os hablé de todo lo que hay que hacer en Guardarraíles para protegerse de las debilidades de la IA, pues lo mismo pero para los bugs y explotis tradicionales.
Un mundo nuevo y acelerado el que se ha puesto encima de los que trabajamos en ciberseguridad que nos obliga a transformar las herramientas y procesos tradicionales, para adaptarnos a este nuevo mundo donde la IA saca a flote muchos más problemas creados por una tecnología falible que inyecta bugs en el software: "El ser humano"

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Pocas veces me ha hecho tanta ilusión que saliera un nuevo libro en 0xWord como con este libro de " Hacking IA: Jailbreak, Prompt Inje...

Entradas populares