Red Code Agent: Un Agentic AI para doblegar tus Code Agents y crear Red-Team Tools
Los Code Agents basados en LLMs tienen sus propios Guardarraíles. A no ser que utilices un LLM sin guardarrailes pensado para eso, como los populares FraudGPT, WormGPT, o WhiteRabbitNeo del que ya os hablé, tienes que irte a hacerte tú tus propios entrenamiento. Pero si quieres utilizar un modelo de generación de código popular, como Cursor, Codium, MetaGPT OCI o ReAct, todos ellos vienen con protecciones para la generación de código peligroso, y RedCodeAgent lo que hace es saltarse esas protecciones para que generen ese código.
El objetivo de este estudio es conocer cuál sería la forma en la que un agente, en este caso RedCodeAgent puede hacer que los modelos de generación de código, los Code Agents más populares, se pongan al servicio del Red Team, haciendo scripts que son para escenarios peligrosos, pero que son fundamentales cuando alguien quieren hacer Hacking y Pentesting con Inteligencia Artificial.
En este caso, el trabajo ha sido hecho en colaboración con Microsoft Research y tiene el título de "RedCodeAgent: Automatic Red-Teaming Agent Against Diverse Code Agents", y busca tener un agente preparado para hacer los exploits de forma automática, utilizando los generados de código más populares.
El proceso que RedCodeAgent, que ha sido programado con LangChain es sencillo de entender. Se trata de conseguir que un RiskScenario, como borrar un fichero, crear claves de registro, tocar archivos clave de un sistema, pueda ser ejecutado con comandos de riesgo que los Guardrails o la detección del Harmful Mode están impidiendo que se ejecuten por el Code Agent.
Para conseguir eso, primero RedCodeAgent cuenta con una Memory donde almacena las peticiones anteriores y los resultados, para poder reutilizar el conocimiento, o encontrar una manera similar de lograr que se ejecute un Prompt malicioso similar.
Después, si esto no funciona, utilizando herramientas de su Toolbox, llama a diferentes procesos de Jailbreak conocidos (en este caso cuatro técnicas diferentes) o realiza sustituciones de código para ofuscar las peticiones, con una arquitectura abierta que permita ir añadiendo nuevas herramientas de Jailbreak en el futuro.
El resultado final es que RedCodeAgent entra en una conversación con el Code Agent para lograr que se ejecuten los escenarios de riesgo, evaluando al final si ha conseguido saltarse o no los Guardrails y el HarmFull Mode Detection para tener el código generado.
Con esta arquitectura, lo que analiza el artículo es el ASR (Attack Success Rate) y el RR(Rejection Rate) para saber si una arquitectura como la de RedCodeAgent permitiría al equipo del Red Team utilizar los CodeAgent para realizar sus tareas.
![]() |
| Figura 8: El Red Team de la empresa de Eduardo Arriols en 0xWord. Cómpralo con Tempos de MyPublicInbox. |
En la siguiente tabla, comprobando el ASR y el RR de tres conjuntos de RiskScenarios con dos Code Agents - OCI (Open Code Interpreter) y RA (ReAct), los resultados son que usando esta arquitectura se consiguen resultados de 70 y hasta 80 por ciento en ASR y ratios muy pequeños de RR.
Si miramos en la siguiente tabla, tenemos un par de ejemplos de la batería de pruebas, donde se pide generar código para borrar ficheros sensibles y para añadir un alias peligroso a un fichero del sistema, y como RedCodeAgent se aprovecha de la potencia de todas las técnicas de Jailbreak añadidas a su Toolbox para conseguir ratios de 70% y 93,33% en estos dos casos.
Comparando todos estos escenarios con cada Code Agent, se puede ver como al final, darle muchas herramientas al Toolbox incrementa significativamente el ASR y reduce drásticamente el RR. En este caso con el Code Agent OCI.
La última tabla que os dejo es la que trae los datos resumidos con Codeium, Cursor y MetaGPT, que son de las más utilizadas hoy en día, y donde podéis ver que los ratios de éxito para conseguir que se ejecuten los RiskScenarios son relevantes, llegando al 72% con Cursor.
Y esto que quiere decir, pues que si algún adversario llega a tus herramientas de desarrollo, simplemente usándolas, puede inyectar vulnerabilidades, bombas lógicas, crear malware, etcetera. Al final, no solo el Red Team usa estas herramientas, sino también los adversarios dentro de tu organización. Por muchas protecciones que tengan tus Code Agent, un atacante puede usarlos en su favor. Así que, es importantísimo vigilar los Prompts que llegan a tus AI-Tools.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)



DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 

















No hay comentarios:
Publicar un comentario