Un informático en el lado del mal: Red Code Agent: Un Agentic AI para doblegar tus Code Agents y crear Red-Team Tools

jueves, noviembre 06, 2025

Red Code Agent: Un Agentic AI para doblegar tus Code Agents y crear Red-Team Tools

Los Code Agents basados en LLMs tienen sus propios Guardarraíles. A no ser que utilices un LLM sin guardarrailes pensado para eso, como los populares FraudGPT, WormGPT, o WhiteRabbitNeo del que ya os hablé, tienes que irte a hacerte tú tus propios entrenamiento. Pero si quieres utilizar un modelo de generación de código popular, como Cursor, Codium, MetaGPT OCI o ReAct, todos ellos vienen con protecciones para la generación de código peligroso, y RedCodeAgent lo que hace es saltarse esas protecciones para que generen ese código.

Figura 1: Red Code Agent - Un Agentic AI para doblegar

tus Code Agents y crear Red-Team Tools

El objetivo de este estudio es conocer cuál sería la forma en la que un agente, en este caso RedCodeAgent puede hacer que los modelos de generación de código, los Code Agents más populares, se pongan al servicio del Red Team, haciendo scripts que son para escenarios peligrosos, pero que son fundamentales cuando alguien quieren hacer Hacking y Pentesting con Inteligencia Artificial.

Figura 2: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

En este caso, el trabajo ha sido hecho en colaboración con Microsoft Research y tiene el título de "RedCodeAgent: Automatic Red-Teaming Agent Against Diverse Code Agents", y busca tener un agente preparado para hacer los exploits de forma automática, utilizando los generados de código más populares.

Figura 3:

El proceso que RedCodeAgent, que ha sido programado con LangChain es sencillo de entender. Se trata de conseguir que un RiskScenario, como borrar un fichero, crear claves de registro, tocar archivos clave de un sistema, pueda ser ejecutado con comandos de riesgo que los Guardrails o la detección del Harmful Mode están impidiendo que se ejecuten por el Code Agent.

Figura 4: Arquitectura de RedCodeAgent

Para conseguir eso, primero RedCodeAgent cuenta con una Memory donde almacena las peticiones anteriores y los resultados, para poder reutilizar el conocimiento, o encontrar una manera similar de lograr que se ejecute un Prompt malicioso similar.

Figura 5: Evaluación de 27 escenarios de riesgo en RedCodeAgent

Después, si esto no funciona, utilizando herramientas de su Toolbox, llama a diferentes procesos de Jailbreak conocidos (en este caso cuatro técnicas diferentes) o realiza sustituciones de código para ofuscar las peticiones, con una arquitectura abierta que permita ir añadiendo nuevas herramientas de Jailbreak en el futuro.

Figura 6: Uso de Memory para optimizar el Jailbreak

El resultado final es que RedCodeAgent entra en una conversación con el Code Agent para lograr que se ejecuten los escenarios de riesgo, evaluando al final si ha conseguido saltarse o no los Guardrails y el HarmFull Mode Detection para tener el código generado.

Figura 7: Ejemplo de ejecución de un Risk Scenario para borrar

el fichero del sistema /etc/gshadow con un script en Python

Con esta arquitectura, lo que analiza el artículo es el ASR (Attack Success Rate) y el RR(Rejection Rate) para saber si una arquitectura como la de RedCodeAgent permitiría al equipo del Red Team utilizar los CodeAgent para realizar sus tareas.

Figura 8: El Red Team de la empresa
de Eduardo Arriols en 0xWord.
Cómpralo con Tempos de MyPublicInbox.

En la siguiente tabla, comprobando el ASR y el RR de tres conjuntos de RiskScenarios con dos Code Agents - OCI (Open Code Interpreter) y RA (ReAct), los resultados son que usando esta arquitectura se consiguen resultados de 70 y hasta 80 por ciento en ASR y ratios muy pequeños de RR.

Figura 9: Tests con OCI y RA

Si miramos en la siguiente tabla, tenemos un par de ejemplos de la batería de pruebas, donde se pide generar código para borrar ficheros sensibles y para añadir un alias peligroso a un fichero del sistema, y como RedCodeAgent se aprovecha de la potencia de todas las técnicas de Jailbreak añadidas a su Toolbox para conseguir ratios de 70% y 93,33% en estos dos casos.

Figura 10: Ejemplos de RedCogeAgent en dos pruebas.

Comparando todos estos escenarios con cada Code Agent, se puede ver como al final, darle muchas herramientas al Toolbox incrementa significativamente el ASR y reduce drásticamente el RR. En este caso con el Code Agent OCI.

Figura 11: ASR y RR en 27 RiskScenarios contra OCI

La última tabla que os dejo es la que trae los datos resumidos con Codeium, Cursor y MetaGPT, que son de las más utilizadas hoy en día, y donde podéis ver que los ratios de éxito para conseguir que se ejecuten los RiskScenarios son relevantes, llegando al 72% con Cursor.

Figura 12: RedCodeAgent contra Cursor, Codeium y MetaGPT

Y esto que quiere decir, pues que si algún adversario llega a tus herramientas de desarrollo, simplemente usándolas, puede inyectar vulnerabilidades, bombas lógicas, crear malware, etcetera. Al final, no solo el Red Team usa estas herramientas, sino también los adversarios dentro de tu organización. Por muchas protecciones que tengan tus Code Agent, un atacante puede usarlos en su favor. Así que, es importantísimo vigilar los Prompts que llegan a tus AI-Tools.

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Buscar artículo

Hacking & Pentesting con Inteligencia Artificial

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

jueves, noviembre 06, 2025

Red Code Agent: Un Agentic AI para doblegar tus Code Agents y crear Red-Team Tools

No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Entradas populares

Chat Público de "El lado del Mal"

Reunirse con Chema Alonso

Singularity Hackers

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Un informático en el lado del mal

Buscar artículo

Hacking & Pentesting con Inteligencia Artificial

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

jueves, noviembre 06, 2025

Red Code Agent: Un Agentic AI para doblegar tus Code Agents y crear Red-Team Tools

No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Entradas populares

Chat Público de "El lado del Mal"

Reunirse con Chema Alonso

Singularity Hackers

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection