Un informático en el lado del mal: Taxonomía de Fallos de Seguridad en Agentic AI: Memory Poisoning Attack con Cross-Domain Prompt Injection Attack (XPIA)

lunes, mayo 19, 2025

Taxonomía de Fallos de Seguridad en Agentic AI: Memory Poisoning Attack con Cross-Domain Prompt Injection Attack (XPIA)

El equipo AI Red Team de Microsoft publicó hace unas semanas un interesante White Papper en el que recoge un Taxonomía de Fallos de Seguridad en la implementación de Agentic AI dentro de las empresas que pueden afectar al Safety & Security de la compañía. El documento no sólo recoge dicha taxonomía sino que además añade una lista de medidas y controles que pueden implementarse para corregir dichos riesgos.

Figura 1: Taxonomía de Fallos de Seguridad en Agentic AI.

Memory Poisoning Attack con Cross-Domain Prompt Injection

Attack (XPIA)

El White Paper, titulado "Taxonomy of Failure Mode in Agentic AI Systems" puedes descargarlo desde el sitio web de Microsoft, y además contiene un interesante caso de estudio que vamos a ver a continuación, ya que es un ataque a un Agentic AI implementado sobre una arquitectura RAG con Memory que es muy ilustrativo.

Figura 2: White Paper "Taxonomy of Failure Mode in Agentic AI Systems"

La taxonomía de los fallos de controles de riesgos que puedan afectar al Safety & Security del sistema los han recogido en esta tabla, donde puede que te sorprenda alguna de la clasificaciones, pero que a lo largo del white paper recorren para explicarlas bien.

Figura 3: Taxonomía de Safety & Security Risks en Agentic AI

En la tabla, como puedes ver, hay una lista de nuevos ataques que se abren con la existencia de plataformas de Agentic AI, como el compromiso de Agentes AI, la Inyección de un Agente AI malicioso en la plataforma, la Suplantación de Agentes AI, la manipulación de flujo de orquestación de los (Hijacking) Agentes AI, hacer Jailbreak a Agentes AI o la provisión maliciosa de nuevos Agentes AI infectando Templates o System Prompts manipulados.

Figura 4: Gestión de la seguridad de sistemas Agentic AI

Todos estos nuevos ataques llevan a problemas que pueden afectar también al Safety de la compañía y las personas, y a que haya que implementar nuevos roles de seguridad dentro de las organizaciones que están implantando plataformas de Agentic AI, como podéis ver en la imagen anterior.

Cross-Domain Prompt Injection Attack (XPIA) para hacer un Memory Poisoning

En el white paper viene un caso de estudio muy interesante de lo que sería un Indirect Prompt Injection, que en la nomenclatura del documento que ha puesto el equipo de Microsoft es Cross-Domain Prompt Injection Attack o XPIA, y que lo que hace es un envenenamiento malicioso de la Memory del Agente AI, lo que sería un Memory Poisoning Attack.

Figura 5: Arquitectura de Agentic AI para procesar el correo

Para que se entienda el ataque y todas las implicaciones, tenemos un sistema de Agente AI, como el que se ve en la imagen anterior, que está procesando el correo electrónico de una persona, y para ello cuenta con una arquitectura RAG donde almacena todo conocimiento del buzón del usuario, y una Memory donde va recordando lo que va aprendiendo, y tres acciones a realizar.

Procesar y ejecutar una acción asociada al correo electrónico, rechazar el mensaje o, si no puede procesarlo, notificar al usuario. Es decir, como un sistema de reglas avanzado usando un Agente AI. Para configurarlo, se ha diseñado un System Prompt como el que podéis ver aquí, en el que se le ha definido hacer uso de la Memory tanto para decider la acción, como para recordar cosas que sean útiles para su gestión, por lo que debe actualizar la Memory también.

Figura 6: System Prompt del Agente AI de correo

Una vez esto, un atacante envía un correo malicioso con una orden para actualizar la Memory del Agente AI de gestión de los e-mails, en el que se le solicita que haga un reenvió de los mensajes, referentes a un determinado tema o que vengan de una determinada persona, a una dirección de e-mail de un atacante.

Figura 7: Envío de un e-mail con el XPIA

Esto lo que provoca es que, el Agente AI, siguiendo su System Prompt, recuerde este comando y actualice su Memory, lo que hará que recuerde esa acción para procesar los mensajes de correo electrónico que lleguen a la plataforma. Es decir, tendremos un Memory Poisoning Attack con éxito.

Figura 8: Memoria del Agente AI envenenada con acción maliciosa

Este ejemplo se puede hacer con cualquier otra acción, como podemos ver en este ejemplo donde el XPIA para hacer el Memory Poisoning llega para mensajes relativos a un determinado tema, pidiendo además confirmación al remitente.

Figura 9: XPIA para envenenar la Memory del Agentic AI

Y por supuesto, como la acción queda registrada en al Memory, cuando se da esta circunstancia, se envían los mensajes a la dirección inyectada, y una confirmación al remitente del mensaje de XPIA, con lo que monitoriza todo lo que está pasando dentro de ese buzón de correo relativo a este tema.

Figura 10: Envío de los correos por el Agente AI

Por supuesto, este ataque se puede utilizar para los ataques de robo de facturas en los que utilizábamos robos de Tokens OAuth, y pueden ser un serio peligro para las personas que estén utilizando estos Agentes AI para gestionar el correo electrónico.

Protecciones y Conclusiones

Comprobar la seguridad de los Agentes AI es fundamental, y hay que establecer muchas medidas para esto. Por supuesto utilizar las Guardrails AI para fortificar estas plataformas, como el caso de Llama Prompt, Llama Guard o Llama Firewall.

Figura 11: Demo de Llama Firewall en LlamaCON 2025

Además, hay que asegurarse de seguir todas las guías de diseño seguro de Agentes AI, haciendo especial hincapié en la instrumentalización, el registro de logs, y la generación de alertas. Estamos hablando de tecnologías muy nóveles que aún estamos descubriendo.

Figura 12: Arquitectura de CaMeL con P-LLM, Q-LLM & Capabilities

Tenemos propuestas para diseñar agentes como Jatmo, StruQ, SecAlign & Instructional Segment Embedding o el caso de Google CaMeL para diseñar de forma segura Agentes AI, pero todavía nos queda mucho camino que recorrer en este sentido, así que... ponte las pilas que hay mucho que securizar.

PD: Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: Inteligencia Artificial (Hacking & Security): Links, Posts, Talks & Papers

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Buscar artículo

Libro Pentesting con FOCA

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

0xWord

Archivo del blog

Blogs y Links

lunes, mayo 19, 2025

Taxonomía de Fallos de Seguridad en Agentic AI: Memory Poisoning Attack con Cross-Domain Prompt Injection Attack (XPIA)

No hay comentarios:

Entrada destacada

Inteligencia Artificial (Hacking & Security): Links, Posts, Talks & Papers

Entradas populares

Reunirse con Chema Alonso

Agradecimientos en Tempos

Singularity Hackers

Chat Público de "El lado del Mal"

Libro de Hacking de
Aplicaciones Web: SQL Injection

Etiquetas

ChemaBot

Un informático en el lado del mal

Buscar artículo

Libro Pentesting con FOCA

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

0xWord

Archivo del blog

Blogs y Links

lunes, mayo 19, 2025

Taxonomía de Fallos de Seguridad en Agentic AI: Memory Poisoning Attack con Cross-Domain Prompt Injection Attack (XPIA)

No hay comentarios:

Entrada destacada

Inteligencia Artificial (Hacking & Security): Links, Posts, Talks & Papers

Entradas populares

Reunirse con Chema Alonso

Agradecimientos en Tempos

Singularity Hackers

Chat Público de "El lado del Mal"

Libro de Hacking deAplicaciones Web: SQL Injection

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection