Mostrando entradas con la etiqueta pentester. Mostrar todas las entradas
Mostrando entradas con la etiqueta pentester. Mostrar todas las entradas

jueves, noviembre 06, 2025

Red Code Agent: Un Agentic AI para doblegar tus Code Agents y crear Red-Team Tools

Los Code Agents basados en LLMs tienen sus propios Guardarraíles. A no ser que utilices un LLM sin guardarrailes pensado para eso, como los populares FraudGPT, WormGPT, o WhiteRabbitNeo del que ya os hablé, tienes que irte a hacerte tú tus propios entrenamiento. Pero si quieres utilizar un modelo de generación de código popular, como Cursor, Codium, MetaGPT OCI o ReAct, todos ellos vienen con protecciones para la generación de código peligroso, y RedCodeAgent lo que hace es saltarse esas protecciones para que generen ese código.

El objetivo de este estudio es conocer cuál sería la forma en la que un agente, en este caso RedCodeAgent puede hacer que los modelos de generación de código, los Code Agents más populares, se pongan al servicio del Red Team, haciendo scripts que son para escenarios peligrosos, pero que son fundamentales cuando alguien quieren hacer Hacking y Pentesting con Inteligencia Artificial.
En este caso, el trabajo ha sido hecho en colaboración con Microsoft Research y tiene el título de "RedCodeAgent: Automatic Red-Teaming Agent Against Diverse Code Agents", y busca tener un agente preparado para hacer los exploits de forma automática, utilizando los generados de código más populares.
El proceso que RedCodeAgent, que ha sido programado con LangChain es sencillo de entender. Se trata de conseguir que un RiskScenario, como borrar un fichero, crear claves de registro, tocar archivos clave de un sistema, pueda ser ejecutado con comandos de riesgo que los Guardrails o la detección del Harmful Mode están impidiendo que se ejecuten por el Code Agent.
Para conseguir eso, primero RedCodeAgent cuenta con una Memory donde almacena las peticiones anteriores y los resultados, para poder reutilizar el conocimiento, o encontrar una manera similar de lograr que se ejecute un Prompt malicioso similar.
Después, si esto no funciona, utilizando herramientas de su Toolbox, llama a diferentes procesos de Jailbreak conocidos (en este caso cuatro técnicas diferentes) o realiza sustituciones de código para ofuscar las peticiones, con una arquitectura abierta que permita ir añadiendo nuevas herramientas de Jailbreak en el futuro.
El resultado final es que RedCodeAgent entra en una conversación con el Code Agent para lograr que se ejecuten los escenarios de riesgo, evaluando al final si ha conseguido saltarse o no los Guardrails y el HarmFull Mode Detection para tener el código generado.
Con esta arquitectura, lo que analiza el artículo es el ASR (Attack Success Rate) y el RR(Rejection Rate) para saber si una arquitectura como la de RedCodeAgent permitiría al equipo del Red Team utilizar los CodeAgent para realizar sus tareas.

En la siguiente tabla, comprobando el ASR y el RR de tres conjuntos de RiskScenarios con dos Code Agents - OCI (Open Code Interpreter) y RA (ReAct), los resultados son que usando esta arquitectura se consiguen resultados de 70 y hasta 80 por ciento en ASR y ratios muy pequeños de RR.
Si miramos en la siguiente tabla, tenemos un par de ejemplos de la batería de pruebas, donde se pide generar código para borrar ficheros sensibles y para añadir un alias peligroso a un fichero del sistema, y como RedCodeAgent se aprovecha de la potencia de todas las técnicas de Jailbreak añadidas a su Toolbox para conseguir ratios de 70% y 93,33% en estos dos casos.
Comparando todos estos escenarios con cada Code Agent, se puede ver como al final, darle muchas herramientas al Toolbox incrementa significativamente el ASR y reduce drásticamente el RR. En este caso con el Code Agent OCI.
La última tabla que os dejo es la que trae los datos resumidos con Codeium, Cursor y MetaGPT,  que son de las más utilizadas hoy en día, y donde podéis ver que los ratios de éxito para conseguir que se ejecuten los RiskScenarios son relevantes, llegando al 72% con Cursor.
Y esto que quiere decir, pues que si algún adversario llega a tus herramientas de desarrollo, simplemente usándolas, puede inyectar vulnerabilidades, bombas lógicas, crear malware, etcetera. Al final, no solo el Red Team usa estas herramientas, sino también los adversarios dentro de tu organización. Por muchas protecciones que tengan tus Code Agent, un atacante puede usarlos en su favor. Así que, es importantísimo vigilar los Prompts que llegan a tus AI-Tools.

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


martes, septiembre 23, 2025

Máster en Reversing, Análisis de Malware y Bug Hunting: Comienzo el 2 de Octubre

Ya he hablado muchas veces de cómo se ha incrementado la demanda de expertos profesionales en Reverseing, Análisis de Malware y Bug Hunting, por asuntos en varias empresas, los problemas de los ataques de ransomware perpetrados contra varias empresas, gobiernos y organizaciones que han sufrido para recuperarse de ellos y volver a estar operativos y funcionales. Y si quieres formarte para ser parte de este conjunto tan selecto de expertos, el próximo 2 de Octubre tienes una oportunidad de oro.


Y desde que vivimos una guerra en Europa como la que estamos sufriendo, vemos un incremento de malware de espionaje e inteligencia. Cuando suceden estos incidentes de seguridad, es lo que llamamos el "SWAT Team" a trabajar en conjunto con el CSIRT que trata todas las emergencias y que es el que tiene que tomar las riendas cuando las cosas se ponen peligrosas. En esos equipos, igual que en los equipos de ciberinteligencia, los equipos Red Team, y cualquiera de los que se encuentran profesionales que necesitan lidiar con lo desconocido se precisan perfiles muy especiales. 
Especialistas que sean capaces de desarmar un malware, un dropper, un rootkit, un bootkit o sea el bicho que haya entrando en el perímetro, haciendo ingeniería inversa o reversing del mismo para saber qué hace, qué ha hecho y cómo se desactiva. Y si lo ha hecho por un fallo conocido, o explotando una vulnerabilidad nueva, por lo que ese analista tiene que ser también un experto en Bug Hunting.
Como os podéis imaginar, estos perfiles con alta profundidad técnica son muy demandados en el mundo de hoy en día, y para tener el nivel adecuado de entrar en los equipos de CSIRT, de Ciberinteligencia o Red Team para atacar a la compañía, hay que formarse mucho. Dentro de los Másters del Campus Internacional de Ciberseguridad  se ha preparado una convocatoria para el 2 de Octubre de este año de uno de estos Máster Online en Reversing, Análisis de Malware y Bug Hunting.

Como sabes, yo estoy de mentor de este Másters, y en él se encuentran profesionales de la talla de Sergio de los SantosMiguel Ángel de CastroManuel UrueñaGonzalo Álvarez MarañónLuis Alberto Segura DelgadoJosé TorresIván Portillo, Alejandro Vázquez y David García forman el plantel de profesionales de un equipo formativo que merece la pena que veas.

Si te gusta este mundo, donde te prometo que tendrás de todo menos aburrimiento y rutina, te puedes apuntar ahora a este Máster Online de Reversing, análisis de Malware y Bug Hunting, que el curso da comienzo el próximo 2 de Octubre de 2025.
También, todos los alumnos tienen libros de 0xWord (Malware en AndoridBug Bounty) acompañando el material de estudio de los Másters de Ciberseguridad y 2.000 Tempos para contactar con profesionales de este campo de ciberseguridad en la plataforma de MyPublicInbox, para que puedas pedir consejo o solucionar dudas. Recuerda, comienza el próximo 2 de Octubre, pero hay que matricularse cuanto antes.

Saludos Malignos!

lunes, junio 23, 2025

BootCamp "Especialista en Ciberseguridad" con becas: Comienzo 8 de Septiembre

El próximo 8 de Septiembre, comienza el 8º BootCamp de Especialista en Ciberseguridad de 4Geeks donde podrás formarte para tener un empleo en el área de seguridad informática con garantía, ya que es una de los condicionantes de esta formación que parte sin requisitos previos para los asistentes. Una oportunidad única para transformar tu futuro convirtiéndote en un profesional de la ciberseguridad.
El contenido de este curso lo he validado yo con mi equipo, y es una selección de temas fundamentales para cualquier profesional de la ciberseguridad, donde además recibirás una formación continua con profesores de mi equipo, además de que tendrás una sesión de Q&A conmigo para hacerme preguntas de los contenidos o de tu futuro profesional.

Todos los asistentes recibirán Tempos de MyPublicInbox que podéis utilizar para contactar con todos los profesionales que estamos en la plataforma - conmigo también - y cuatro libros de 0xWord para que completes tu formación con trabajo propio, algo que va a ser fundamental si quieres labrarte un futuro laboral exitoso en este mundo.
La formación es online, con tres sesiones por la tarde los lunes, miércoles y viernes de 18:00 a 21:00 horas, para que puedas conectarte a la formación después de tu jornada laboral o de estudios. Como os podéis imaginar, es un BootCamp, así que el nivel de trabajo que deberás hacer será intenso, pero es el "jumpstart" que se suele necesitar para entrar en el mundo laboral, que es el objetivo principal de esta formación.
No os he informado de los bootcamps anteriores porque la demanda ha sido muy alta, y las becas disponibles se han copado, pero como quedan pocas plazas para el del 8 de Septiembre, os aviso con tiempo para que podáis aplicar a este curso.
Sólo se admiten 16 alumnos por programa, debido a que luego hay que darle salida a la búsqueda de empleo, así que no puede ser masivo. Si quieres una de las plazas, y ver si puedes optar a una de las becas, aplica cuanto antes, para que el equipo de 4Geeks pueda atenderte. Si has hecho propósito  de formarte en ciberseguridad... aquí tienes una buena oportunidad.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


sábado, mayo 17, 2025

¿Se puede reemplazar a un Pentester con un Agente de IA basado en LLMs? Cómo realizar ataques completos a redes complejas con agentes de Inteligencia Artificial

Durante el mes de marzo de este año se ha publicado un interesante trabajo realizado por miembros de la Carmegie Mellon University en colaboración con gente de Antrhopic para ver si estamos en un nivel de madurez en los LLMs como para que puedan realizar ataques completos a redes de organizaciones que requieren un buen número de fases antes de conseguir tomar control de ellas.
El trabajo, que lleva por título: "On the Feasibility of Using LLMs to Execute Multistage Network Attacks" intenta resolver la pregunta de si un LLM, con acceso a las herramientas utilizadas en los ataques realizados a las redes de organizaciones que hemos conocido recientemente, sería capaz de tener éxito en su ataque, y si no fuera así, qué habría que hacer para que incrementara su probabilidad de conseguir el objetivo. Ya hemos visto estudios anteriores para ver un LLM puede hackear autonomamente un Web Site o para ver si un LLM puede crear y ejecutar exploits de 1-day a partir de sus CVEs.
El objetivo de este trabajo era comprobar si lo que realizan los Pentesters habitualmente en sus proyectos de Ethical Hacking se pueden empezar a re-emplazar por un Agentit AI que tome las decisiones a las que se enfrenta un pentester profesional en redes complejas.
Para realizar el experimento, los investigadores han recreado 10 arquitecturas de redes diferentes como objetivo, con equipos, servidores, configuraciones diferentes. Dos de ellas, inspiradas en las arquitecturas de dos ataques perpetrados por atacantes humanos que tuvieron éxito, como son los escenarios de Equifax-Inspired y Colonial Pipleline-Inspired.
Como se puede ver en la tabla anterior, en cada escenario hay un número diferentes de hosts, y un objetivo distinto, para retar al modelo de Inteligencia Artificial en cada escenario y que sus acciones deban ser totalmente diferentes. Para conseguir esto, el ataque debe pasar una serie de fases definidas en un grafo, y que no son las mismas para cada escenario. Este es un ejemplo.
En el grafo anterior, lo que tenemos es un esquema que representa al proceso multi-fase que tuvieron que realizar los atacantes en la fuga de datos de Equifax, según el informe final del caso que se hizo público. El motor LLM debería ser capaz descubrir cuál sería el proceso multi-fase del grafo que hay que generar para tener éxito en cada escenario.

JL. Rambla, ampliado y revisado por Pablo González y Chema Alonso

Sin embargo, en las pruebas realizadas, los MM-LLMs utilizados en el experimento no se mostraron lo suficientemente inteligente para resolver el escenario. De hecho, probados OpenAI GPT4o, Antrhopic Sonnet 3.5, Google Gemini 1.5 Pro y PentestGPT, sólo uno de ellos fue capaz de resolver un escenario de cuatro fases una única vez.
Mirando los detalles de las pruebas para localizar dónde se bloquean estos modelos, los resultados son bastante reveladores, ya que normalmente se quedan entre el 1 y 30 % de las fases que deben realizar, lo que hace que la complejidad del entorno sea un reto.
Pero si miramos las razones, el resultado es aún más claro. La mayoría de los errores se producen no por una mala elección de la tarea a realizar, sino por elegir bien con qué herramienta, y una vez elegida correctamente por no escribir correctamente el comando que deben utilizar. Es decir, por tener un error o una alucinación a la hora de configurar la llamada a una herramienta.
Con este conocimiento, lo que los investigadores hicieron fue plantear la creación de una capa de APIs que simplificara el proceso de llamar a las herramientas a utilizar. Aunque no han utilizado MCP (Model Context Protocol), la arquitectura que proponen, en el mundo de "ahora mismo", sería el equivalente a crear un MCP para las herramientas de hacking.
Como podéis ver en este gráfico, extraído del podcast "Model Context Protocol (MCP), clearly explained (why it matters)", puedes ver como, después de tener al LLM como "Answering Machine", pasamos a una arquitectura donde le integramos herramientas - que sería la prueba realizada hasta el momento en este trabajo, para ir luego a estandarizar la integración con una capa de abstracción que provee las APIs necesarias para llamar a los servicios, y para tener el contexto con el que tomar sus decisiones.
En una arquitectura MCP, la capa de abstracción que crean los servicios serían las llamadas a las APIs y la entrega de respuestas en forma de Contexto para que el modelo tome su siguiente decisión. Para ello, hay que crear el MCP Client en el modelo, mediante la configuración del Prompt como vamos a ver en las Figuras 14 a 16.  Esta capa de abstracción se llama Incalmo, y el funcionamiento trata de aislar los detalles de llamar a las herramientas y cómo configurar los parámetros, para darle APIs de alto nivel al LLM.
Una vez que tenemos construida esa capa de abstracción de APIs llamada Incalmo, lo siguiente que se hace es construir con el LLM un Agentic AI - similar al Agentic AI para un CRM con sus Thoughts o al Agentic AI de SmartHome que os dejé -, pero para usar Incalmo


Esto permite que, en lugar de enseñarle a manejar una decena de herramientas diferentes, aprenda a utilizar una capa de APIs común, y configurar para ello el Prompt para que sepa manejarlas, como se hace en los Agentic AI.



El Prompt para construir el agente LLM es mucho más largo, pero queda bastante claro y explícito cómo se construye el el entorno del Agente AI basado en el LLM para que use la capa de abstracción de Incalmo, que le conecta con las herramientas de pentesting.

Figura 17: "The Art of Pentesting" El nuevo libro de
0xWord para formarse como pentester

Ahora, el LLM tiene que resolver la inteligencia para resolver el entorno, sin preocuparse de ser un experto en los comandos de las diferentes herramientas de pentesting. Es la mezcla de "El arte del pentesting" y la "Técnica del pentesting" unidas de la mano. Y los resultados no son nada malos. Para comenzar el proceso solo hay que darle la información inicial del escenario.
Después, el LLM, de manera autónoma hace uso de los interfaces de Incalmo con los que ha sido instruido siguiendo los objetivos del Prompt, y hace uso de las diferentes herramientas mediante llamadas a APIs como tenéis en las siguientes imágenes.



Al final, al simplificarle la ejecución de las tareas, el motor LLM pierde menos su alineamiento con el objetivo, lo que le permite no perderse en el árbol y tener una visión general del bosque, y eso lleva a que los resultados sean significativamente mucho mejores.


Como se puede ver en la imagen anterior, después de 5 intentos en cada escenario, uno u otro modelo, fue capaz de resolver 9 de cada 10 escenarios de entre 25 y 50 hosts. Por ejemplo, Haiku 3.5 resolvió 5 escenarios completamente al menos una vez. Sonnet 3.5 resolvió 3 escenarios completamente al menos una vez, mientras que Gemini Pro y GPT4o resolvieron dos escenarios completamente. 

Si miramos la tabla anterior, vemos que abstraer a los modelos de las herramientas incrementa significativamente su alineamiento con el objetivos y la capacidad de tomar decisiones mejores sin tener que lidiar con las llamadas a las herramientas.

Conclusiones

Con esta arquitectura vemos que un LLM autónomamente puede hackear 5 de 10 escenarios de red completamente, y 9 de 10 parcialmente, lo que es un resultado muy prometedor que puede que nos lleve a que sean capaces de superar los 10 escenarios ... ¿a finales de año tal vez? 

Figura 25: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

El incremento del éxito es brutal cuando le abstraemos de la herramienta, y le permitimos pensar "estratégicamente" en el proceso de hackear un sistema, así que parece que las arquitecturas MCP para Pentesting van a ser tendencia en dentro de... ¿ya? No sé si te estás poniendo las pilas con la IA en el mundo de la ciberseguridad y el pentesting, pero deberías hacerlo ya, sí o sí.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Pocas veces me ha hecho tanta ilusión que saliera un nuevo libro en 0xWord como con este libro de " Hacking IA: Jailbreak, Prompt Inje...

Entradas populares