viernes, agosto 01, 2025

MITRE ATLAS: El framework para auditar la seguridad de un sistema de Inteligencia Artificial

En este artículo se hablará de MITRE ATLAS, el framework que la gente de MITRE tiene enfocado a poner a prueba los sistemas que hacen uso de la Inteligencia Artificial. ATLAS son las siglas de Adversarial Threat Landscape for Artificial-Intelligence Systems. El framework podemos verlo como el hermano pequeño de MITRE ATT&CK, del cual hemos comentado mucho con anterioridad, incluso realizando una herramienta que se presentó en BlackHat USA 2020 como ATTPwn.


ATLAS sistematiza tácticas y técnicas que pueden ser utilizadas por individuos maliciosos para atacar sistemas de IA. El enfoque de ATLAS se encuentra en sistemas basados en Machine Learning, Deep Learning y modelos de lenguaje o LLMs. Puede que veamos pronto ámbitos más concretos como los MCP o el A2A (Agent to Agent), aunque ya existen adaptaciones, seguramente pronto se vean muchas más pruebas y posibilidades. 

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

El objetivo de ATLAS es utilizar su conocimiento y las posibilidades que éste ofrece para clasificar y poder mitigar amenazas adversarias. El objetivo es el mismo que el de MITRE ATT&CK, pero en un entorno un poco más especial y, también, más desconocido por la mayoría de auditores y pentesters.


En este marco de trabajo se aplican los principios de ATT&CK a las amenazas de la IA actual, combinando todo lo que se ha ido recopilando en diferentes ámbitos: ataques en el mundo real de la IA, el conocimiento obtenido del Red Team en el mundo de la IA, la propia investigación que han llevado a cabo en la industria y la parte académica (un gran impulsor del conocimiento en este campo) generando una base de conocimiento útil para defender los sistemas (a través de herramientas de medición: auditoría y pentesting).

Figura 4: El Red Team de la empresa
de Eduardo Arriols
 
¿Cómo organiza la información ATLAS? De forma muy similar a ATT&CK. Es decir, si te manejas bien con ATT&CK no tendrás problema en cómo verás la información en la matriz. Es importante entender que no es lo mismo auditar o hacer pentesting a un sistema tradicional que a uno que dispone de un modelo de IA, aunque comparten elementos comunes: lo que es una interfaz web con sus potenciales vulnerabilidades como un XSS o un LFI puede seguir estando en el sistema con IA, pero la diferencia está cuando se interactúa con el modelo. El auditor deberá tener conocimientos específicos para entender que se está probando y qué es lo que propone ATLAS

Las tácticas (principales) que propone ATLAS son las siguientes:
  • Reconocimiento.
  • Acceso inicial.
  • Persistencia.
  • Escalada de privilegios.
  • Evasión de defensas.
  • Acceso a credenciales.
  • Movimiento lateral.
  • Tácticas específicas de IA
    • acceso al modelo de ML o etapa de ataque de ML
Las tácticas de ATLAS (y de ATT&CK) son el objetivo más generalista. Lo que va a perseguir el atacante. Si pensamos en un ataque como una serie de etapas, el atacante irá “quemando” etapas. Cada una de esas etapas tienen un objetivo, eso es la táctica. En otras palabras, podemos ver en muchos sitios que la táctica es el qué se quiere lograr por parte del atacante: cómo obtener acceso, cómo evadir defensas o cómo interferir en la predicción de un modelo.

En la documentación de MITRE ATLAS se puede ver bien todos los aspectos de una táctica (con su descripción) y las técnicas que pueden ser utilizadas para lograr cumplir el objetivo de la táctica. En la imagen, se puede ver la documentación de la táctica de reconocimiento. Se puede ver el código de la táctica, el número de técnicas disponibles y la versión (última modificación). Además, la descripción o resumen que permite entender cual es el objetivo de la táctica. 


En el caso elegido para ejemplificarlo, se habla del reconocimiento (muy ligado a la etapa clásica de un pentest) con el que un atacante busca recopilar información sobre el sistema de IA. Esta información podrá ser utilizada posteriormente para elegir el vector de ataque en el objetivo. El reconocimiento puede ser llevado a cabo de forma pasiva y activa. En este caso, parece que hablamos de la forma más tradicional de reconocimiento.

Las técnicas de ATLAS son las acciones concretas que un atacante puede usar para llegar a cumplir la táctica. En otras palabras, es un cómo el atacante realiza acciones concretas para llegar al objetivo (la táctica). Por simplificar todo esto y entenderlo mejor, se puede decir que un atacante tiene una táctica (el objetivo) que es acceder al modelo. 

Para ello utiliza una técnica (acción) por la que el atacante intenta reconstruir el modelo a partir de accesos o consultas. De esta forma podría llegar al objetivo. Para una táctica se dispone, generalmente, de un gran número de técnicas. Quizá en ATLAS no hay tantas técnicas para cada táctica, pero se irán descubriendo cada vez más métodos como ocurre con ATT&CK. Una vez vistas las tácticas, podemos decir que algunas técnicas conocidas (y bastante populares) son:
  • Envenenamiento de los datos o dataset.
  • Extracción del modelo.
  • Prompt Injection para los LLMs.
  • Degradación de la salida de los modelos.
  • Denegación de servicio a modelos grandes, afectando a su disponibilidad.
Ahora, vamos a ver una técnica concreta de la táctica de acceso al modelo de IA. La técnica es la de acceso a la API de inferencia. El acceso puede obtenerse de manera legítima y puede servir como fuente de información (descubrir ontología del modelo o descubrir familia del modelo), como medio para el ataque (y su verificación, crear un entorno adversario) y para la inyección de datos sobre el sistema con el objetivo de impactar (evadir el modelo de IA). Esto es lo que se indica sobre la técnica. Se describe cómo se llevan a cabo las acciones para lograr conseguir el objetivo de la táctica.


Cuando uno revisa la documentación y la información hay algo interesante que son los casos de estudio en las tácticas y en las técnicas. Son casos reales que son estudiados y que muestran lo que sucedió y cuando ocurrió. Estos casos de estudio ayudan a ver el impacto real de la no seguridad en un entorno de Inteligencia Artificial.


Esto es MITRE ATLAS. Un framework que proporciona una gran base de conocimiento para los profesionales de la seguridad, tanto desde el punto de vista ofensivo como desde el defensivo. Un mundo que puedes explorar, ya que hay un sinfín de conocimiento esperándote.

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares