Un informático en el lado del mal: BlueCodeAgent: Agentic AI para revisar que el código generado con AI Coders es de buena calidad

jueves, noviembre 13, 2025

BlueCodeAgent: Agentic AI para revisar que el código generado con AI Coders es de buena calidad

El otro día os hablaba el paper dedicado a RedCodeAgent, para forzar que una AI Coder genere código peligroso dentro de la organización, y hoy le toca a BlueCodeAgent, que hace justo lo contrario, vigilar que el código que un AI Coder está generando es seguro, sin sesgos, y cumpliendo la política definida por la organización.

Figura 1: BlueCodeAgent: Agentic AI para revisar que el código

generado con AI Coders es de buena calidad

Ambos papers están publicados por el equipo de Microsoft Research, que como buena factoría de software que es, está más que interesado en empujar la investigación para que los AI Coders puedan hacer código de confianza que pueda ponerse en producción, así que todo lo que sea mejorar la calidad es fundamental.

Figura 2: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

En el artículo de RedCodeAgent lo que se buscaba era ver si un AI Coder podría ser forzado a generar código "maligno", y el resultado era sorprendente por el alto grado de éxito. Ahora en el paper de "BlueCodeAgent: A Blue Teaming Agent Enabled by Automated Red Teaming for CodeGen AI" se busca vigilar el código generado por los AI Coders.

Figura 3: BlueCodeAgent: A Blue Teaming Agent Enabled

by Automated Red Teaming for CodeGen AI

Para hacer este trabajo, lo que hace BlueCodeAgent es comprobar la seguridad de los Prompts solicitados y los códigos generados, es decir, antes y después de que se genere el código para comprobar que al AI Coder le llegue ya un Prompt correcto. Esto, en un ejemplo de detección de Sesgos (BIAS), sería algo como lo que se ve en la siguiente imagen.

Figura 4: Analizando los sesgos en la petición del prompt al AI Coder

con Análisis Directo del prompt

Para esto, el BlueCodeAgent tiene que hacer un análisis del Prompt para analizar los riesgos de generar códigos sesgados, de generar código malicioso que pueda haber sido forzado por un adversario - como se vio en el trabajo de RedCodeAgent - o la política de seguridad definida por la compañía.

Figura 5: Política de constitución de prompts

para evitar sesgos y cumplir los objetivos basado

en BlueCodeAgent

Para dotar de inteligencia a BlueCodeAgent se parte de una Política que define cuáles son los riesgos, más una base de conocimiento de categorías de Prompts maliciosos, más una base de datos de conocimiento sobre vulnerabilidades que se analizan para generar el conocimiento que debe aplicar a los análisis de los Prompts que debe realizar BlueCodeAgent para hacer una generación de código usando el AI Coder ya basada en un filtrado correcto de la petición.

Figura 6: Análisis de petición de código con base de

conocimiento de BlueCodeAgent

Después se usa el AI Coder, y el resultado da un código que vuelve a ser evaluado buscando vulnerabilidades conocidas en el código al estilo del Red Team, generando al final una base de datos de riesgos o no previamente analizados, lo que incrementa el conocimiento de BlueCodeAgent con su uso.

Figura 7: El Red Team de la empresa
de Eduardo Arriols en 0xWord.
Cómpralo con Tempos de MyPublicInbox.

Con todo esto, el resultado, pues una detección mejor en los diferentes Benchmarks de detección de Prompts con Sesgos, Pompts con incumplimiento de políticas de programación de la compañía, Prompts Maliciosos o detección de código "buggie", lo que produce lógicamente un mejor código y una reducción de las vulnerabilidades. En el paper se prueban diferentes Benchmarks con diferentes estrategias de otras propuestas.

Figura 8: Resultados de Benchmarks comprando BlueCodeAgent

con otras estrategias usando diferentes AI Coders

Los Benchamarks son los que son, es decir, datos y pruebas encapsuladas que no son la totalidad de la realidad, pero al menos sirven para tomar una foto - aunque alguien pueda ponerse "guapo" para la foto y salga mejor en la foto que en la realidad -, pero parece evidente que usar el mayor número de análisis posibles al Prompt y al código generado es una buena estrategia de seguridad, ¿no?

Puedes leerte el paper para ver más detalles, y si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

jueves, noviembre 13, 2025

BlueCodeAgent: Agentic AI para revisar que el código generado con AI Coders es de buena calidad

No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Entradas populares

Buscar artículo

Chat Público de "El lado del Mal"

Reunirse con Chema Alonso

Singularity Hackers

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

jueves, noviembre 13, 2025

BlueCodeAgent: Agentic AI para revisar que el código generado con AI Coders es de buena calidad

No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Entradas populares

Buscar artículo

Chat Público de "El lado del Mal"

Reunirse con Chema Alonso

Singularity Hackers

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection