Un informático en el lado del mal: ExploitBench: Un benchmark para medir las capacidades de Agentes IA en la explotación de bugs

lunes, mayo 25, 2026

ExploitBench: Un benchmark para medir las capacidades de Agentes IA en la explotación de bugs

Hace unas semanas os hablé de ExploitGym, un benchmark que podía a competir los modelos de IA en la búsqueda y explotación de vulnerabilidades, sobre un total de 898 bugs que debían ser localizados y explotados. Hoy os hablo de Exploitbench, que aunque está centrado en medir también las capacidades de hacer Vibe-Exploiting o búsqueda y explotación de bugs, miden las capacidades de manera incremental por fases, no sólo la explotación completa.

Figura 1: ExploitBench - Un benchmark para medir las capacidades

de Agentes IA en la explotación de bugs

El utilizar los modelos LLM más avanzados para hacer "Hacking y Pentesting con Inteligencia Artificial", es algo de lo que llevamos hablando más de dos años, pero con la llegada de Mythos, esto ha complicado drásticamente la vida de los CISO en las empresas, como os conté en el artículo: "El impacto de Mythos en concreto y la IA en general en el trabajo de los CISOs".

Figura 2: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso.

Medir las capacidades de todos los modelos, y sobre todo tener una imagen granular de lo que es capaz de hacer cada uno de ellos es lo que intenta el trabajo de ExploitBench que tenéis publicado en este paper académico titulado: "Exploitbench: A capability ladder benchmark for LLM Cybersecurity Agents", que como veis, independientemente de qué modelo LLM o LLMs estés utilizando, mide la calidad de los Agentes AI creados para hacer la búsqueda y explotación de bugs.

Figura 3: Exploitbench: A capability ladder benchmark for LLM Cybersecurity Agents

El benchmark está formado por 41 niveles en los que se entrega por cada vulnerabilidad el Código Fuente (C), el fichero en Binario (B), las Capacidades que se van a medir, y por tanto, banderas - flags - que debe conseguir el Agente AI, llamadas (K) y el Prompt (P) del nivel, con el identificador, una descripción, y el diff del parche que corrige el bug. Es decir, información para hacer finding, reversing y exploiting completo de una vulnerabilidad.

Figura 4: Composición de los bugs a explotar de Exploitbench

A partir de ese momento, el Agente AI debe moverse por 5 capacidades, pasando por aplicar el parche (T5), saber cuál es la vulnerabilidad (T4), y saber explotar las primitivas (T3) que eso no quiere decir que sea capaz de construir aún el exploit funcional para ese bug de 1-day.

Figura 5: Capacidades T-3, T-4 y T-5 en Exploitbench

Con estas primeras capacidades estaríamos hablando de la parte de descubrir y entender que hay una vulnerabilidad que se puede explotar. Es decir, estamos en la parte de descubrimiento y documentación de la vulnerabilidad, pero hay que ir más allá, los Bug Hunters con IA son mucho más peligrosos y tienen que hacer el exploit.

Figura 6:"Bug Hunter" escrito por David Padilla en 0xWord

En las fases T-2 y T-1, se debe pasar a la parte compleja de la generación de un exploit. Es decir, deben conseguirse los info-leaks para poder saltarse las protecciones de la memoria, DEP, ASLR, Function Calling, etcétera, y conseguir salirse de la SandBox, para terminar con un control de flujo completo del exploit en la fase T-1, lo que daría un exploit funcional completo.

Figura 7: Capacidades T-3, T-4 y T-5 en Exploitbench

Explicadas los diferentes niveles de capacidades medidos, podemos ver en la tabla los resultados medidos para cada uno de los Agentes AI - basados en diferentes modelos LLM - donde queda claro que la superioridad de Mythos buscando y explotando vulnerabilidades es espectacular, entendiendo todas las vulnerabilidades en T-1 y llegando a explotar completamente 18 de ellas en T-5, con un coste medio de 203.93 USD por exploit.

Figura 8: Resultados empíricos de Exploitbench

El coste de 204 USD por exploit es totalmente irrisorio para el mundo del que venimos, pero que deja claro que el mundo al que vamos en la búsqueda y explotación de vulnerabilidad es puramente IA. En el estudio, haciendo algo de Vibe-Exploiting y haciendo coaching a GPT-5.5, en tres intentos, fue posible hacer un exploit funcional en T-5.

Figura 9: Resultados GPT-5.5 en tres intentos con coaching

En este caso, hablamos de hacer un exploit funcional con técnicas similares a cómo os conté en el artículo titulado: "Cómo crear un exploit 1-day sobre un CVE de Chrome con Vibe Coding usando Claude Opus (no Mythos) y poner en jaque todas las apps en Electron", donde se le hacía coaching al modelo para lograr el exploit funcional.

Figura 10: Tabla completa de pruebas con 3 intentos

En los apéndices del paper tenéis las tablas y gráficas con todas las mediciones. En la anterior están los 41 bugs 1-day con sus CVE para que puedas comprobar la dificultad de todos ellos, que como podréis ver, son todos de la V8 de Chromium, debido a su importancia en el mundo del desarrollo de apps.

Un mundo de Hacking con IA

El mundo del Hacking, el Pentesting y la Ciberseguridad no existen nunca más sin el uso de Inteligencia Artificial, así que más vale que te pongas las pilas si quieres dedicarte a esto.

Figura 13:"Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment"

escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que se han escrito, citado o publicado en este blog sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

lunes, mayo 25, 2026

ExploitBench: Un benchmark para medir las capacidades de Agentes IA en la explotación de bugs

No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Reunirse con Chema Alonso

Hacking IA

Masters Ciberseguridad

Chat Público de "El lado del Mal"

Libro Pentesting con FOCA

Agradecimientos en Tempos

Singularity Hackers

Etiquetas

ChemaBot

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

lunes, mayo 25, 2026

ExploitBench: Un benchmark para medir las capacidades de Agentes IA en la explotación de bugs

No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Reunirse con Chema Alonso

Hacking IA

Masters Ciberseguridad

Chat Público de "El lado del Mal"

Libro Pentesting con FOCA

Agradecimientos en Tempos

Singularity Hackers

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection