Un informático en el lado del mal: ExploitGym: Mythos, GPT 5.5, Gemini Pro en un CTF & Benchmark de hacer exploits

sábado, mayo 16, 2026

ExploitGym: Mythos, GPT 5.5, Gemini Pro en un CTF & Benchmark de hacer exploits

En el artículo de "El impacto de Mythos en concreto y la IA en general en el trabajo de los CISOs" donde os contaba cómo ha ido evolucionando el uso de los modelos LLMs en el mundo de la ciberseguridad en general, os contaba cómo se habían ido cubriendo las diferentes áreas con IA de forma muy rápida. Primero la búsqueda de vulnerabilidades, después el parcheo de vulnerabilidades, y por supuesto, la explotación de las mismas.

Figura 1: ExploitGym: Mythos, GPT 5.5, Gemini Pro

en un CTF & Benchmark de hacer exploits

Con la llegada de Mythos y GPT 5.5, el impacto en el mundo de la Seguridad Ofensiva, en concreto la parte de exploiting de vulnerabilidades se ha disparado, además de incrementar masivamente la parte descubrimiento de las mismas. La pregunta que queda en el aire, es... ¿cuánto de mejores son estos nuevos modelo en la estas funciones? ¿Cuánto de efectivo es un Agente AI para hacer pentesting y hacking creando exploits? Es decir, para usarlo como os contamos en el libro para hacker "Hacking y Pentesting con Inteligencia Artificial".

Figura 2: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso.

Esto es lo que se intenta medir en el paper de "ExploitGym: Can AI Agents Turn Security Vulnerabilities into Real Attacks?" donde investigadores de varias empresas y universidades han trabajado en hacer un benchmark para medir justo esto, haciendo competir en la primera evaluación a Mythos, GPT 5.5, Gemini Pro y las versiones de Claude Opus 4.7 y 4.6, y que podéis leer aquí mismo.

Figura 3: "ExploitGym: Can AI Agents Turn Security

Vulnerabilities into Real Attacks?"

Para poder medirlo, el Benchmark está formado por tres conjuntos de vulnerabilidades en el área de lo que se ha llamado USER Space, donde se trata de ver cómo hace explotación de vulnerabilidades en software ampliamente utilizado en Internet por los usuarios y ver cómo salta las protecciones de la memoria como ASLR, PIE y los Canary, vulnerabilidades en BROWSER Space para Chromium Browsers, donde se usa la versión V8 con las protecciones de Sandbox, y en Kernel Space para explotar bugs en el kernel de Linux, donde hay protecciones de KASLR y usernames, entre otras.

Figura 4: Tres espacios con vulnerabilidades a explotar y sus mitigaciones

Al final, son 898 vulnerabilidades compiladas en un Benchmark al que juegan los diferentes modelos para lograr, como en los CTFs tradicionales de las CONs de Hacking, las banderas. Las flags. Para ello, una vez descubierta la vulnerabilidad y construido el exploit saltándose las mitigaciones, el sistema de ExploitGym les entregará la bandera, que será evaluada por el Juez, tal y como se ve en este gráfico.

Figura 5: Proceso de búsqueda, reporte y validación de la explotación

Como podéis ver, es un CTF en toda regla, pero además, luchando contra el crono, por lo que el time-out es de sólo 2 horas. Una competición muy dura para que un grupo de humanos pudiera entrar a competir contra estos Agentes AI de Seguridad Ofensiva. Los resultados en la siguiente tabla.

Figura 6: Resultados del Benchmark de ExploitGym

Como podéis ver, Mythos Preview consiguió un total de 157 banderas, mientras que GPT-5.5 consiguió un total de 120. Una auténtica salvajada en ambos casos, descubriendo y creando exploits funcionales de las vulnerabilidades. Pero ojo cuidado, que los resultados aún fueron mayores que esos.

Figura 7: Flag-To-Success

En la tabla anterior se puede ver que Mythos Preview y GPT-5.5 consiguieron 226 y 210 banderas respectivamente, pero no explotando la vulnerabilidad exigida, sino explotando otras que estaban también en el código. Es decir, no siguieron el camino que se se pedía de explotar concretamente ese bug, sino que se aprovecharon de otros existentes en el código, por lo que no se dieron por buenas. Claro, a un atacante de verdad seguro que eso le da bastante igual.

Figura 8: Overlap entre Mythos y GPT-5.5

La gráfica anterior es todavía más curiosa, porque a pesar de que encontraron y explotaron Mythos y GPT-5.5 un total de 91 banderas iguales, aún hubo 66 que explotó Mythos y no GPT-5.5 y al contrario, 29 que explotó GPT-5.5 y no Mythos, luego alguien que tenga la suma de los dos tiene una visión más amplia de la verdadera seguridad. Como cuenta en este libro, los Bug Hunters con IA son mucho más peligrosos.

Figura 9:"Bug Hunter" escrito por David Padilla en 0xWord

A la hora de responder a la pregunta de "¿Cuánto de mejor es Mythos con respecto a Claude Opus?", ya que vimos que era posible hacer un exploit en 20 horas a partir de un CVE, como os conté en el artículo de "Cómo crear un exploit 1-day sobre un CVE de Chrome con Vibe Coding usando Claude Opus (no Mythos) y poner en jaque todas las apps en Electron", la comparativa siguiente es clara.

Figura 10: Generación de exploits en 2 horas y 5 horas

Para ver el proceso completo de cómo trabaja un Agente AI en el descubrimiento, explotación y reporte para evaluación de las vulnerabilidades aquí tenéis un proceso con el punto de vista de la conversación de uno de los agentes.

Figura 11: Verificación de una trayectoria de explotación.

Por último, hay que resaltar el valor de las medidas de protección y las mitigaciones, pues en el estudio se ve que hay muchas más vulnerabilidades descubiertas por los Agentes AI pero que no han podido ser explotadas por las medidas de seguridad, por lo que hay que seguir estresando las medidas de seguridad en los sistemas para hacer que sea más difícil, o imposible en el mejor de los casos, explotarlas.

Figura 12: Ratio de bypass de las medidas de mitigación.

En el nuevo mundo, los Agentes AI también juegan un rol importante en la protección de los sistemas, y especialmente en el nuevo mundo de vulnerabilidades creadas por servicios digitales creados por IA que hay que proteger. Para ello, necesitamos IA para hacer triage de peticiones de atacantes, y generación de firmas de bloqueo, creación de nuevas reglas en los servicios de seguridad, etcétera. En el artículo de "Cómo desplegar IA con seguridad en la empresa" os hablé de todo lo que hay que hacer en Guardarraíles para protegerse de las debilidades de la IA, pues lo mismo pero para los bugs y explotis tradicionales.

Figura 13:"Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment"

escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord

Un mundo nuevo y acelerado el que se ha puesto encima de los que trabajamos en ciberseguridad que nos obliga a transformar las herramientas y procesos tradicionales, para adaptarnos a este nuevo mundo donde la IA saca a flote muchos más problemas creados por una tecnología falible que inyecta bugs en el software: "El ser humano"

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Figura 14: Contactar con Chema Alonso

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Reunirse con Chema Alonso

Hacking & Pentesting con Inteligencia Artificial

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

sábado, mayo 16, 2026

ExploitGym: Mythos, GPT 5.5, Gemini Pro en un CTF & Benchmark de hacer exploits

No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Hacking IA

Masters Ciberseguridad

Chat Público de "El lado del Mal"

Libro Pentesting con FOCA

Agradecimientos en Tempos

Singularity Hackers

Etiquetas

ChemaBot

Un informático en el lado del mal

Reunirse con Chema Alonso

Hacking & Pentesting con Inteligencia Artificial

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

sábado, mayo 16, 2026

ExploitGym: Mythos, GPT 5.5, Gemini Pro en un CTF & Benchmark de hacer exploits

No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Hacking IA

Masters Ciberseguridad

Chat Público de "El lado del Mal"

Libro Pentesting con FOCA

Agradecimientos en Tempos

Singularity Hackers

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection