jueves, noviembre 13, 2025

BlueCodeAgent: Agentic AI para revisar que el código generado con AI Coders es de buena calidad

El otro día os hablaba el paper dedicado a RedCodeAgent, para forzar que una AI Coder genere código peligroso dentro de la organización, y hoy le toca a BlueCodeAgent, que hace justo lo contrario, vigilar que el código que un AI Coder está generando es seguro, sin sesgos, y cumpliendo la política definida por la organización.
Ambos papers están publicados por el equipo de Microsoft Research, que como buena factoría de software que es, está más que interesado en empujar la investigación para que los AI Coders puedan hacer código de confianza que pueda ponerse en producción, así que todo lo que sea mejorar la calidad es fundamental. 
En el artículo de RedCodeAgent lo que se buscaba era ver si un AI Coder podría ser forzado a generar código "maligno", y el resultado era sorprendente por el alto grado de éxito. Ahora en el paper de "BlueCodeAgent: A Blue Teaming Agent Enabled by Automated Red Teaming for CodeGen AI" se busca vigilar el código generado por los AI Coders.
Para hacer este trabajo, lo que hace BlueCodeAgent es comprobar la seguridad de los Prompts solicitados y los códigos generados, es decir, antes y después de que se genere el código para comprobar que al AI Coder le llegue ya un Prompt correcto. Esto, en un ejemplo de detección de Sesgos (BIAS), sería algo como lo que se ve en la siguiente imagen.


Para esto, el BlueCodeAgent tiene que hacer un análisis del Prompt para analizar los riesgos de generar códigos sesgados, de generar código malicioso que pueda haber sido forzado por un adversario - como se vio en el trabajo de RedCodeAgent - o la política de seguridad definida por la compañía.


Para dotar de inteligencia a BlueCodeAgent se parte de una Política que define cuáles son los riesgos, más una base de conocimiento de categorías de Prompts maliciosos, más una base de datos de conocimiento sobre vulnerabilidades que se analizan para generar el conocimiento que debe aplicar a los análisis de los Prompts que debe realizar BlueCodeAgent para hacer una generación de código usando el AI Coder ya basada en un filtrado correcto de la petición. 


Después se usa el AI Coder, y el resultado da un código que vuelve a ser evaluado buscando vulnerabilidades conocidas en el código al estilo del Red Team, generando al final una base de datos de riesgos o no previamente analizados, lo que incrementa el conocimiento de BlueCodeAgent con su uso. 
Con todo esto, el resultado, pues una detección mejor en los diferentes Benchmarks de detección de Prompts con Sesgos, Pompts con incumplimiento de políticas de programación de la compañía, Prompts Maliciosos o detección de código "buggie", lo que produce lógicamente un mejor código y una reducción de las vulnerabilidades. En el paper se prueban diferentes Benchmarks con diferentes estrategias de otras propuestas.
Los Benchamarks son los que son, es decir, datos y pruebas encapsuladas que no son la totalidad de la realidad, pero al menos sirven para tomar una foto - aunque alguien pueda ponerse "guapo" para la foto y salga mejor en la foto que en la realidad -, pero parece evidente que usar el mayor número de análisis posibles al Prompt y al código generado es una buena estrategia de seguridad, ¿no?

Puedes leerte el paper para ver más detalles, y si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares