Cómo evitar el ataque de la "Triada Letal" en Agentic AI" con la "Rule of 2"
Hace tiempo que sigo el blog de Simon Willison- ya sabéis que los mayores seguimos leyendo RSS, blogs, y si te pones e-zines en FTPs, news, y BBSs -, y en él habla de seguridad, IA, y de lo que él consideró la "Lethal Trifecta" o "Triada Letal" en la construcción de Agentic AI, y que debe ser una regla de todos los Blue Team a seguir en la fortificación de Agentes AI.
La idea es muy sencilla, y si revisas todos los caso de ejemplos de exploits en Agentic AI de los que os ido hablando en los últimos meses, todos los entornos acaban cumpliendo la Triada Letal de la que habla Simon Willison.
O lo que es lo mismo, la explotación es posible porque:
1.- El Agentic AI: analiza datos inseguros como contenido en una web, mensajes en un buzón, ficheros con datos escondidos, repositorios de código con mensajes puestos por terceros, etcétera.2.- El Agentic AI: realiza tareas automáticamente sin supervisión humana accediendo a herramientas o funciones que le dotan de poderes especiales.3.- El Agentic AI: puede comunicarse exteriormente de alguna manera.
Si revisas los casos de los que he hablado en estos artículos, verás que todos ellos cumplen sistemáticamente estas tres circunstancias, y por tanto, el atacante fue capaz de conseguir enlazar diferentes debilidades para lograr su objetivo.
- EchoLeak: Un Cross Prompt Injection Attack (XPIA) para Microsoft Office 365 Copilot
- Google Gemini para Gmail: Cross-Domain Prompt Injection Attack (XPIA) para hacer Phishing
- Hacking Gitlab Duo: Remote Prompt Injection, Malicious Prompt Smuggling, Client-Side Attacks & Private Code Stealing
- Hacking IA: Indirect Prompt Injection en Perplexity Comet
- ShadowLeak Attack para Agentes IA de Deep Research en ChatGPT
- ForcedLeak: Indired Prompt Injection en Salesforce AgentForce
- AgentFlayer exploit para ChatGPT: Prompt Injection para exfiltrar datos de tus almacenes conectados
- Indirect Prompt Injection en Perplexity Comet para atacar tu Stripe y el riesgo de los AI-First Web Browsers con ChatGPT Atlas
- Perplexity Comet: Indirect Prompt Injection con textos invisibles in imágenes
- ChatGPT Atlas: Client-Side Attack CSRF para Contaminar la Memoria con un Prompt Injection que te hackea tu Windows con Vibe Coding
- Prompt Injection en ChatGPT Atlas con Malformed URLs en la Omnibox
- HackedGPT: Cómo explotar "Weaknesses" en ChatGPT para hacer Phishing o Exfiltrar Datos
Teniendo la "Triada Letal" en la cabeza, el equipo de seguridad de Meta ha propuesto que se cumpla siempre la Rule of 2, o lo que es lo mismo que todos los Agentic AI tengan que elegir qué dos de las tres cosas quieren hacer sin supervisión, y que elijan solo dos de ellas.
Si pensamos en los diferentes casos, utilizar esta regla a la hora de diseñar los Agentic AI incrementa drásticamente la seguridad de los sistemas, y ayuda a mitigar el impacto de cualquier debilidad del sistema, donde ya sabemos que los modelos LLM vienen con Prompt Injection, Jailbreak, Un-Alligment y Hallucinations por defecto.
Teniendo en cuenta estas tres opciones A, B y C, el equipo de Meta ha puesto el caso de varios ejemplos de diseño de agentes para ver cómo impactaría la aplicación de la Rule of 2 en todos ellos. El primer ejemplo es un Agentic AI para hacer de asistente de viaje, se le permite buscar info en Internet, y acceder a los datos personales del usuario, pero se le prohibe hacer acciones con comunicaciones externas, así se evita que haga acciones externas.
Dicho esto, al tener la posibilidad de buscar en la web, el ejemplo de HackedGPT donde utilizan búsquedas en BING con Static-Links para exfiltrar datos seguiría siendo posible. Eso sí, no compraría ni realizaría ninguna acción sin consentimiento del usuarios. Para garantizar la privacidad, no se le debería realizar ninguna búsqueda después de haber accedido a datos sensibles privados.
El siguiente caso es un Agentic AI para hacer búsquedas en la web, al estilo de los utilizados en ChatGPT Atlas o Perplexity Comet, donde ya hemos visto varios casos peligrosos. En este caso, se le restringe a los datos personales y la información privada más allá de los datos iniciales del Prompt. Lógicamente, hacer acciones en el correo electrónico donde hay datos personales no debería estar permitido, porque si no se pueden acceder a contraseñas como hemos visto en casos anteriore.
El último caso es un Agentic AI para programar, y en este caso se le prohibe acceder a fuentes inseguras como la web, el correo electrónico donde haya posible Spam o repositorios de código no controlados, para evitar el envenenamiento del modelo y la creación de código troyanizado o inseguro como hemos visto en algunos trabajos.
No es una Silver Bullet, pero sí que ayuda a mejorar la seguridad de la plataforma de Agentic AI que estes desarrollando para tu empresa, así que, dale mucho cuidado a los permisos de tus agentes. Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)



DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 













No hay comentarios:
Publicar un comentario