lunes, junio 01, 2026

Despliegue Zero-Trust para Agentes IA

Estos días estamos aún con la resaca de la nueva versión de Anthropic Claude Opus 4.8 que trae mejoras incrementales en el funcionamiento de este modelo de frontera, pero hoy quería hablaros de la publicación de Zero-Trust for AI Agents, que puedes leer en la web, y descargarte en un documento que resume todas las protecciones que tienes que aplicar.
Tras la lectura del mismo, la sensación que me da es que es aplicar todas las protecciones que tenemos hoy en día, pero aún está lejos de resolver todos los problemas de seguridad y fortificación que son necesarios para un modelo de Agentes IA completamente autónomos que tienen accesos a datos, sistemas, y herramientas dentro de una organización, y que por diseño tienes las debilidades de BIAS, Hallucinations, Data Leakage, Jailbreak, Prompt Injection y Misalignment con la que los responsables de ciberseguridad deben lidiar. 

Sin embrago, es una lista de recomendaciones de todo lo que se debe hacer para, con las herramientas que tenemos hoy en día, proteger al máximo "que se pueda" el ecosistema de Agentes IA, y sobre todo, para limitar el impacto que puede tener la explotación de estas vulnerabilidades en los Agentes IA de tu organización. 

Despliegue Zero-Trust para Agentes IA

Para ello, el despliegue y la configuración de los agentes se basa en los principios del Zero-Trust, aceptando que no se puede confiar en ninguna pieza de la cadena - ni datos, ni herramientas, ni sistemas,  -, que hay que asumir que todo puede estar vulnerado en algún momento, y que hay que, por tanto, diseñar todo con el menor privilegio posible.

Figura 3: Blast Radius

De hecho, utiliza para sus recomendaciones dos conceptos que, aun no siendo nuevos, quizá la terminología pueda llevar a confusión, que son Blast Radius, y Least Agency. El primero de ellos es del "Radio de Impacto" o en el caso de de un explosión por vulneración del Agente IA, qué puede llegar a verse afectado - para conocer el impacto de una brecha en un determinado Agente IA -, y el de Least Agency, que es lo mismo que darle al Agente IA el menor de los privilegios posible en todos los sistemas que necesite para la ejecución de su rol, que en el caso de los Agentes IA puede ser un conjunto de cuentas, herramientas, accesos, ámbitos, que definen todas las cosas que podría hacer dentro de la empresa.

Figura 4: Least Agency

A partir de ese momento, hay que aplicar todas las posibilidades de fortificación por capas, analizando primeramente todos los riesgos que tenemos, que el documento cataloga en una arquitectura que, bajo mi punto de vista, no recoge todas las posibilidades de ataque, ni todos los riesgos existentes, pero al menos da un punto de partida.
El documento recoge como riesgos las técnicas de Prompt Injection - Directas o Indirectas -, es decir, por medio de un usuario malicioso que quiere desalinear el modelo directamente, o por haber leído un dato inseguro que quiere hacer lo propio. También reconoce como riesgo el uso de herramientas maliciosas en por medio de una manipulación de las mismas o de los MCP Servers conectados, que es otra amenaza que hemos visto explotada en ataques.
En la parte de Identidad, el problema de las "Non-Human Identities" de las que hemos hablado varias veces, donde hay que controlar las cuentas, y los privilegios de cada una de las identidades que le permitimos utilizar a dicho Agente IA, para que todas tengan un "Scope" bien definido y controlado.
Una de las partes más complejas de asegurar dentro de un ecosistema de Agentes IA, es lo que aquí llaman la "Supply Chain", pero que no es más que entender que en un entrono multi-agente, y multi-modelo, cualquier pieza puede ser maliciosa, por lo que podemos tener Agentes IA con Modelos Envenenados o Agentes IA que han sido comprometidos, vía envenenamiento de su Memoria, Contexto o RAG, lo que hace que no te puedas fiar de ninguna llamada o colaboración. 
Figura 8: RAG Poisoning

El Prompt, las APIs, los Datos de tu RAG, el Contexto, o la colaboración con otros Agentes IA debe hacerse en un entorno Zero-Trust. A partir de este análisis, hay que aplicar una serie de herramientas y soluciones para desplegar AI con seguridad en la empresa. De esto yo os hablé en un artículo anterior, y llevado a los Agentes IA con "Non Human Identities", las propuestas de fortificación que recoge el documento se dividen en diferentes niveles, y diferentes tipos de organizaciones. Esta es la lista:
  • Agent identity verification: Darle una identidad única a cada Agente IA, basada en credenciales robustas, certificados digitales e incluso usando sistemas de protección de credenciales tipo HSM o TPMs para evitar el robo de credenciales.
  • Service Authentication: Verificación robusta de los servicios de la organización, de las identidades de los Agentes IA. No basta con que tengan identidad y credenciales, tienen que ser verificadas extremo a extremo en todos los servicios de la organización.
  • Observability and auditing: Registros y análisis de comportamiento. Esta es una pieza fundamental que muchas organizaciones no están atacando. Saber qué están haciendo y cómo lo están haciendo en todo momento para tener información basada en su comportamiento. 
  • Behavioral monitoring and response: Sobre los datos de registro, y las trazas de comportamiento, hay que tener herramientas de monitorización que detecten las anomalías de funcionamiento, y por supuesto, tener herramientas de respuesta automática.
  • Input validation and output controls: Guardarraíles para detectar BIAS, DLP, Hallucinations, Poisinoing Attacks, Jailbreak Attacks, Prompt Injection, Misalingments, etcétera. Esto exige un trabajo de ajuste fino en el diseño de cada Agente IA de una organización.
  • Integrity a nd recovery: Fortificación del entorno de configuración de cada uno de los Agentes IA, sistemas de rollback para acciones erróneas o peligrosas que un Agente IA haya podido realizar, y herramientas y sistemas de gobernanza de los Agentes IA. Ahí es nada.
Analizando esto, si eres de los que trabajas en Ciberseguridad, podrás ver que es un "stack" completo y nuevo de herramientas de fortificación, control, auditoría, observabilidad, gestión, que hay que desplegar completamente en la empresa, y que probablemente muchas organizaciones no tienen en los presupuestos, pero que los CISOs deben incorporar cuanto antes para que se puedan comenzar a trabajar de manera "más o menos" controlada en el mundo de los Agentes IA en los equipos de la compañía.
Como os podéis imaginar, este solo es una de las patas donde los CISOs deben estresar sus políticas y sistemas, ya que son despliegues completos para gestionar la seguridad de los Agentes IA, pero con la llegada de Mythos y los Agentes IA para ataques, los CISOs deben estresar las medidas y herramientas de seguridad para pensar en Agentes IA enemigos como adversarios, y eso demanda también nuevas inversions debido a la efectividad en la búsqueda de vulnerabilidades y explotación de las mismas por parte de Agentes IA ofensivos.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Pocas veces me ha hecho tanta ilusión que saliera un nuevo libro en 0xWord como con este libro de " Hacking IA: Jailbreak, Prompt Inje...

Entradas populares