MITRE ATLAS: El framework para auditar la seguridad de un sistema de Inteligencia Artificial
En este artículo se hablará de MITRE ATLAS, el framework que la gente de MITRE tiene enfocado a poner a prueba los sistemas que hacen uso de la Inteligencia Artificial. ATLAS son las siglas de Adversarial Threat Landscape for Artificial-Intelligence Systems. El framework podemos verlo como el hermano pequeño de MITRE ATT&CK, del cual hemos comentado mucho con anterioridad, incluso realizando una herramienta que se presentó en BlackHat USA 2020 como ATTPwn.
ATLAS sistematiza tácticas y técnicas que pueden ser utilizadas por individuos maliciosos para atacar sistemas de IA. El enfoque de ATLAS se encuentra en sistemas basados en Machine Learning, Deep Learning y modelos de lenguaje o LLMs. Puede que veamos pronto ámbitos más concretos como los MCP o el A2A (Agent to Agent), aunque ya existen adaptaciones, seguramente pronto se vean muchas más pruebas y posibilidades.
ATLAS sistematiza tácticas y técnicas que pueden ser utilizadas por individuos maliciosos para atacar sistemas de IA. El enfoque de ATLAS se encuentra en sistemas basados en Machine Learning, Deep Learning y modelos de lenguaje o LLMs. Puede que veamos pronto ámbitos más concretos como los MCP o el A2A (Agent to Agent), aunque ya existen adaptaciones, seguramente pronto se vean muchas más pruebas y posibilidades.
![]() |
Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández |
El objetivo de ATLAS es utilizar su conocimiento y las posibilidades que éste ofrece para clasificar y poder mitigar amenazas adversarias. El objetivo es el mismo que el de MITRE ATT&CK, pero en un entorno un poco más especial y, también, más desconocido por la mayoría de auditores y pentesters.
En este marco de trabajo se aplican los principios de ATT&CK a las amenazas de la IA actual, combinando todo lo que se ha ido recopilando en diferentes ámbitos: ataques en el mundo real de la IA, el conocimiento obtenido del Red Team en el mundo de la IA, la propia investigación que han llevado a cabo en la industria y la parte académica (un gran impulsor del conocimiento en este campo) generando una base de conocimiento útil para defender los sistemas (a través de herramientas de medición: auditoría y pentesting).
Figura 3: Matriz de MITRE ATLAS
En este marco de trabajo se aplican los principios de ATT&CK a las amenazas de la IA actual, combinando todo lo que se ha ido recopilando en diferentes ámbitos: ataques en el mundo real de la IA, el conocimiento obtenido del Red Team en el mundo de la IA, la propia investigación que han llevado a cabo en la industria y la parte académica (un gran impulsor del conocimiento en este campo) generando una base de conocimiento útil para defender los sistemas (a través de herramientas de medición: auditoría y pentesting).
![]() |
Figura 4: El Red Team de la empresa de Eduardo Arriols |
¿Cómo organiza la información ATLAS? De forma muy similar a ATT&CK. Es decir, si te manejas bien con ATT&CK no tendrás problema en cómo verás la información en la matriz. Es importante entender que no es lo mismo auditar o hacer pentesting a un sistema tradicional que a uno que dispone de un modelo de IA, aunque comparten elementos comunes: lo que es una interfaz web con sus potenciales vulnerabilidades como un XSS o un LFI puede seguir estando en el sistema con IA, pero la diferencia está cuando se interactúa con el modelo. El auditor deberá tener conocimientos específicos para entender que se está probando y qué es lo que propone ATLAS.
Las tácticas (principales) que propone ATLAS son las siguientes:
- Reconocimiento.
- Acceso inicial.
- Persistencia.
- Escalada de privilegios.
- Evasión de defensas.
- Acceso a credenciales.
- Movimiento lateral.
- Tácticas específicas de IA
- acceso al modelo de ML o etapa de ataque de ML
En la documentación de MITRE ATLAS se puede ver bien todos los aspectos de una táctica (con su descripción) y las técnicas que pueden ser utilizadas para lograr cumplir el objetivo de la táctica. En la imagen, se puede ver la documentación de la táctica de reconocimiento. Se puede ver el código de la táctica, el número de técnicas disponibles y la versión (última modificación). Además, la descripción o resumen que permite entender cual es el objetivo de la táctica.
Figura 5: La Táctica de Reconocimiento
En el caso elegido para ejemplificarlo, se habla del reconocimiento (muy ligado a la etapa clásica de un pentest) con el que un atacante busca recopilar información sobre el sistema de IA. Esta información podrá ser utilizada posteriormente para elegir el vector de ataque en el objetivo. El reconocimiento puede ser llevado a cabo de forma pasiva y activa. En este caso, parece que hablamos de la forma más tradicional de reconocimiento.
Para ello utiliza una técnica (acción) por la que el atacante intenta reconstruir el modelo a partir de accesos o consultas. De esta forma podría llegar al objetivo. Para una táctica se dispone, generalmente, de un gran número de técnicas. Quizá en ATLAS no hay tantas técnicas para cada táctica, pero se irán descubriendo cada vez más métodos como ocurre con ATT&CK. Una vez vistas las tácticas, podemos decir que algunas técnicas conocidas (y bastante populares) son:
- Envenenamiento de los datos o dataset.
- Extracción del modelo.
- Prompt Injection para los LLMs.
- Degradación de la salida de los modelos.
- Denegación de servicio a modelos grandes, afectando a su disponibilidad.
Figura 7: Técnica de AI Model Inference API Access
Cuando uno revisa la documentación y la información hay algo interesante que son los casos de estudio en las tácticas y en las técnicas. Son casos reales que son estudiados y que muestran lo que sucedió y cuando ocurrió. Estos casos de estudio ayudan a ver el impacto real de la no seguridad en un entorno de Inteligencia Artificial.
Esto es MITRE ATLAS. Un framework que proporciona una gran base de conocimiento para los profesionales de la seguridad, tanto desde el punto de vista ofensivo como desde el defensivo. Un mundo que puedes explorar, ya que hay un sinfín de conocimiento esperándote.
Autor: Pablo González Pérez, escritor de los libros "Hacking & Pentesting con IA", "Metasploit para Pentesters", "Hacking con Metasploit: Advanced Pentesting" "Hacking Windows", "Ethical Hacking", "Got Root", “Pentesting con Powershell” y de "Empire: Hacking Avanzado en el Red Team", Microsoft MVP en Seguridad y Security Researcher en Telefónica.
Para consultas puedes usar el Buzón Público para contactar con Pablo González

![]() |
Contactar con Pablo González |
No hay comentarios:
Publicar un comentario