Taxonomía de Fallos de Seguridad en Agentic AI: Memory Poisoning Attack con Cross-Domain Prompt Injection Attack (XPIA)
El equipo AI Red Team de Microsoft publicó hace unas semanas un interesante White Papper en el que recoge un Taxonomía de Fallos de Seguridad en la implementación de Agentic AI dentro de las empresas que pueden afectar al Safety & Security de la compañía. El documento no sólo recoge dicha taxonomía sino que además añade una lista de medidas y controles que pueden implementarse para corregir dichos riesgos.
El White Paper, titulado "Taxonomy of Failure Mode in Agentic AI Systems" puedes descargarlo desde el sitio web de Microsoft, y además contiene un interesante caso de estudio que vamos a ver a continuación, ya que es un ataque a un Agentic AI implementado sobre una arquitectura RAG con Memory que es muy ilustrativo.
La taxonomía de los fallos de controles de riesgos que puedan afectar al Safety & Security del sistema los han recogido en esta tabla, donde puede que te sorprenda alguna de la clasificaciones, pero que a lo largo del white paper recorren para explicarlas bien.
En la tabla, como puedes ver, hay una lista de nuevos ataques que se abren con la existencia de plataformas de Agentic AI, como el compromiso de Agentes AI, la Inyección de un Agente AI malicioso en la plataforma, la Suplantación de Agentes AI, la manipulación de flujo de orquestación de los (Hijacking) Agentes AI, hacer Jailbreak a Agentes AI o la provisión maliciosa de nuevos Agentes AI infectando Templates o System Prompts manipulados.
Todos estos nuevos ataques llevan a problemas que pueden afectar también al Safety de la compañía y las personas, y a que haya que implementar nuevos roles de seguridad dentro de las organizaciones que están implantando plataformas de Agentic AI, como podéis ver en la imagen anterior.
Cross-Domain Prompt Injection Attack (XPIA) para hacer un Memory Poisoning
En el white paper viene un caso de estudio muy interesante de lo que sería un Indirect Prompt Injection, que en la nomenclatura del documento que ha puesto el equipo de Microsoft es Cross-Domain Prompt Injection Attack o XPIA, y que lo que hace es un envenenamiento malicioso de la Memory del Agente AI, lo que sería un Memory Poisoning Attack.
Para que se entienda el ataque y todas las implicaciones, tenemos un sistema de Agente AI, como el que se ve en la imagen anterior, que está procesando el correo electrónico de una persona, y para ello cuenta con una arquitectura RAG donde almacena todo conocimiento del buzón del usuario, y una Memory donde va recordando lo que va aprendiendo, y tres acciones a realizar.
Procesar y ejecutar una acción asociada al correo electrónico, rechazar el mensaje o, si no puede procesarlo, notificar al usuario. Es decir, como un sistema de reglas avanzado usando un Agente AI. Para configurarlo, se ha diseñado un System Prompt como el que podéis ver aquí, en el que se le ha definido hacer uso de la Memory tanto para decider la acción, como para recordar cosas que sean útiles para su gestión, por lo que debe actualizar la Memory también.
Una vez esto, un atacante envía un correo malicioso con una orden para actualizar la Memory del Agente AI de gestión de los e-mails, en el que se le solicita que haga un reenvió de los mensajes, referentes a un determinado tema o que vengan de una determinada persona, a una dirección de e-mail de un atacante.
Esto lo que provoca es que, el Agente AI, siguiendo su System Prompt, recuerde este comando y actualice su Memory, lo que hará que recuerde esa acción para procesar los mensajes de correo electrónico que lleguen a la plataforma. Es decir, tendremos un Memory Poisoning Attack con éxito.
Este ejemplo se puede hacer con cualquier otra acción, como podemos ver en este ejemplo donde el XPIA para hacer el Memory Poisoning llega para mensajes relativos a un determinado tema, pidiendo además confirmación al remitente.
Y por supuesto, como la acción queda registrada en al Memory, cuando se da esta circunstancia, se envían los mensajes a la dirección inyectada, y una confirmación al remitente del mensaje de XPIA, con lo que monitoriza todo lo que está pasando dentro de ese buzón de correo relativo a este tema.
Por supuesto, este ataque se puede utilizar para los ataques de robo de facturas en los que utilizábamos robos de Tokens OAuth, y pueden ser un serio peligro para las personas que estén utilizando estos Agentes AI para gestionar el correo electrónico.
Protecciones y Conclusiones
Comprobar la seguridad de los Agentes AI es fundamental, y hay que establecer muchas medidas para esto. Por supuesto utilizar las Guardrails AI para fortificar estas plataformas, como el caso de Llama Prompt, Llama Guard o Llama Firewall.
Figura 11: Demo de Llama Firewall en LlamaCON 2025
Además, hay que asegurarse de seguir todas las guías de diseño seguro de Agentes AI, haciendo especial hincapié en la instrumentalización, el registro de logs, y la generación de alertas. Estamos hablando de tecnologías muy nóveles que aún estamos descubriendo.
Tenemos propuestas para diseñar agentes como Jatmo, StruQ, SecAlign & Instructional Segment Embedding o el caso de Google CaMeL para diseñar de forma segura Agentes AI, pero todavía nos queda mucho camino que recorrer en este sentido, así que... ponte las pilas que hay mucho que securizar.
PD: Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: Inteligencia Artificial (Hacking & Security): Links, Posts, Talks & Papers
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario