miércoles, noviembre 12, 2025

Cómo evitar el ataque de la "Triada Letal" en Agentic AI" con la "Rule of 2"

Hace tiempo que sigo el blog de Simon Willison- ya sabéis que los mayores seguimos leyendo RSS, blogs, y si te pones e-zines en FTPs, news, y BBSs -, y en él habla de seguridad, IA, y de lo que él consideró la "Lethal Trifecta" o "Triada Letal" en la construcción de Agentic AI, y que debe ser una regla de todos los Blue Team a seguir en la fortificación de Agentes AI

La idea es muy sencilla, y si revisas todos los caso de ejemplos de exploits en Agentic AI de los que os ido hablando en los últimos meses, todos los entornos acaban cumpliendo la Triada Letal de la que habla Simon Willison.

O lo que es lo mismo, la explotación es posible porque:

1.- El Agentic AI: analiza datos inseguros como contenido en una web, mensajes en un buzón, ficheros con datos escondidos, repositorios de código con mensajes puestos por terceros, etcétera.

2.- El Agentic AI: realiza tareas automáticamente sin supervisión humana accediendo a herramientas o funciones que le dotan de poderes especiales.

3.- El Agentic AI: puede comunicarse exteriormente de alguna manera. 
Si revisas los casos de los que he hablado en estos artículos, verás que todos ellos cumplen sistemáticamente estas tres circunstancias, y por tanto, el atacante fue capaz de conseguir enlazar diferentes debilidades para lograr su objetivo.
Teniendo la "Triada Letal" en la cabeza, el equipo de seguridad de Meta ha propuesto que se cumpla siempre la Rule of 2, o lo que es lo mismo que todos los Agentic AI tengan que elegir qué dos de las tres cosas quieren hacer sin supervisión, y que elijan solo dos de ellas.
Si pensamos en los diferentes casos, utilizar esta regla a la hora de diseñar los Agentic AI incrementa drásticamente la seguridad de los sistemas, y ayuda a mitigar el impacto de cualquier debilidad del sistema, donde ya sabemos que los modelos LLM vienen con Prompt Injection, Jailbreak, Un-Alligment y Hallucinations por defecto.
Teniendo en cuenta estas tres opciones A, B y C, el equipo de Meta ha puesto el caso de varios ejemplos de diseño de agentes para ver cómo impactaría la aplicación de la Rule of 2 en todos ellos. El primer ejemplo es un Agentic AI para hacer de asistente de viaje, se le permite buscar info en Internet, y acceder a los datos personales del usuario, pero se le prohibe hacer acciones con comunicaciones externas, así se evita que haga acciones externas.

Dicho esto, al tener la posibilidad de buscar en la web, el ejemplo de HackedGPT donde utilizan búsquedas en BING con Static-Links para exfiltrar datos seguiría siendo posible. Eso sí, no compraría ni realizaría ninguna acción sin consentimiento del usuarios. Para garantizar la privacidad, no se le debería realizar ninguna búsqueda después de haber accedido a datos sensibles privados.

El siguiente caso es un Agentic AI para hacer búsquedas en la web, al estilo de los utilizados en ChatGPT Atlas o Perplexity Comet, donde ya hemos visto varios casos peligrosos. En este caso, se le restringe a los datos personales y la información privada más allá de los datos iniciales del Prompt. Lógicamente, hacer acciones en el correo electrónico donde hay datos personales no debería estar permitido, porque si no se pueden acceder a contraseñas como hemos visto en casos anteriore.

El último caso es un Agentic AI para programar, y en este caso se le prohibe acceder a fuentes inseguras como la web, el correo electrónico donde haya posible Spam o repositorios de código no controlados, para evitar el envenenamiento del modelo y la creación de código troyanizado o inseguro como hemos visto en algunos trabajos.

No es una Silver Bullet, pero sí que ayuda a mejorar la seguridad de la plataforma de Agentic AI que estes desarrollando para tu empresa, así que, dale mucho cuidado a los permisos de tus agentes. Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares