Mostrando entradas con la etiqueta Red Team. Mostrar todas las entradas
Mostrando entradas con la etiqueta Red Team. Mostrar todas las entradas

viernes, agosto 01, 2025

MITRE ATLAS: El framework para auditar la seguridad de un sistema de Inteligencia Artificial

En este artículo se hablará de MITRE ATLAS, el framework que la gente de MITRE tiene enfocado a poner a prueba los sistemas que hacen uso de la Inteligencia Artificial. ATLAS son las siglas de Adversarial Threat Landscape for Artificial-Intelligence Systems. El framework podemos verlo como el hermano pequeño de MITRE ATT&CK, del cual hemos comentado mucho con anterioridad, incluso realizando una herramienta que se presentó en BlackHat USA 2020 como ATTPwn.


ATLAS sistematiza tácticas y técnicas que pueden ser utilizadas por individuos maliciosos para atacar sistemas de IA. El enfoque de ATLAS se encuentra en sistemas basados en Machine Learning, Deep Learning y modelos de lenguaje o LLMs. Puede que veamos pronto ámbitos más concretos como los MCP o el A2A (Agent to Agent), aunque ya existen adaptaciones, seguramente pronto se vean muchas más pruebas y posibilidades. 

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

El objetivo de ATLAS es utilizar su conocimiento y las posibilidades que éste ofrece para clasificar y poder mitigar amenazas adversarias. El objetivo es el mismo que el de MITRE ATT&CK, pero en un entorno un poco más especial y, también, más desconocido por la mayoría de auditores y pentesters.


En este marco de trabajo se aplican los principios de ATT&CK a las amenazas de la IA actual, combinando todo lo que se ha ido recopilando en diferentes ámbitos: ataques en el mundo real de la IA, el conocimiento obtenido del Red Team en el mundo de la IA, la propia investigación que han llevado a cabo en la industria y la parte académica (un gran impulsor del conocimiento en este campo) generando una base de conocimiento útil para defender los sistemas (a través de herramientas de medición: auditoría y pentesting).

Figura 4: El Red Team de la empresa
de Eduardo Arriols
 
¿Cómo organiza la información ATLAS? De forma muy similar a ATT&CK. Es decir, si te manejas bien con ATT&CK no tendrás problema en cómo verás la información en la matriz. Es importante entender que no es lo mismo auditar o hacer pentesting a un sistema tradicional que a uno que dispone de un modelo de IA, aunque comparten elementos comunes: lo que es una interfaz web con sus potenciales vulnerabilidades como un XSS o un LFI puede seguir estando en el sistema con IA, pero la diferencia está cuando se interactúa con el modelo. El auditor deberá tener conocimientos específicos para entender que se está probando y qué es lo que propone ATLAS

Las tácticas (principales) que propone ATLAS son las siguientes:
  • Reconocimiento.
  • Acceso inicial.
  • Persistencia.
  • Escalada de privilegios.
  • Evasión de defensas.
  • Acceso a credenciales.
  • Movimiento lateral.
  • Tácticas específicas de IA
    • acceso al modelo de ML o etapa de ataque de ML
Las tácticas de ATLAS (y de ATT&CK) son el objetivo más generalista. Lo que va a perseguir el atacante. Si pensamos en un ataque como una serie de etapas, el atacante irá “quemando” etapas. Cada una de esas etapas tienen un objetivo, eso es la táctica. En otras palabras, podemos ver en muchos sitios que la táctica es el qué se quiere lograr por parte del atacante: cómo obtener acceso, cómo evadir defensas o cómo interferir en la predicción de un modelo.

En la documentación de MITRE ATLAS se puede ver bien todos los aspectos de una táctica (con su descripción) y las técnicas que pueden ser utilizadas para lograr cumplir el objetivo de la táctica. En la imagen, se puede ver la documentación de la táctica de reconocimiento. Se puede ver el código de la táctica, el número de técnicas disponibles y la versión (última modificación). Además, la descripción o resumen que permite entender cual es el objetivo de la táctica. 


En el caso elegido para ejemplificarlo, se habla del reconocimiento (muy ligado a la etapa clásica de un pentest) con el que un atacante busca recopilar información sobre el sistema de IA. Esta información podrá ser utilizada posteriormente para elegir el vector de ataque en el objetivo. El reconocimiento puede ser llevado a cabo de forma pasiva y activa. En este caso, parece que hablamos de la forma más tradicional de reconocimiento.

Las técnicas de ATLAS son las acciones concretas que un atacante puede usar para llegar a cumplir la táctica. En otras palabras, es un cómo el atacante realiza acciones concretas para llegar al objetivo (la táctica). Por simplificar todo esto y entenderlo mejor, se puede decir que un atacante tiene una táctica (el objetivo) que es acceder al modelo. 

Para ello utiliza una técnica (acción) por la que el atacante intenta reconstruir el modelo a partir de accesos o consultas. De esta forma podría llegar al objetivo. Para una táctica se dispone, generalmente, de un gran número de técnicas. Quizá en ATLAS no hay tantas técnicas para cada táctica, pero se irán descubriendo cada vez más métodos como ocurre con ATT&CK. Una vez vistas las tácticas, podemos decir que algunas técnicas conocidas (y bastante populares) son:
  • Envenenamiento de los datos o dataset.
  • Extracción del modelo.
  • Prompt Injection para los LLMs.
  • Degradación de la salida de los modelos.
  • Denegación de servicio a modelos grandes, afectando a su disponibilidad.
Ahora, vamos a ver una técnica concreta de la táctica de acceso al modelo de IA. La técnica es la de acceso a la API de inferencia. El acceso puede obtenerse de manera legítima y puede servir como fuente de información (descubrir ontología del modelo o descubrir familia del modelo), como medio para el ataque (y su verificación, crear un entorno adversario) y para la inyección de datos sobre el sistema con el objetivo de impactar (evadir el modelo de IA). Esto es lo que se indica sobre la técnica. Se describe cómo se llevan a cabo las acciones para lograr conseguir el objetivo de la táctica.


Cuando uno revisa la documentación y la información hay algo interesante que son los casos de estudio en las tácticas y en las técnicas. Son casos reales que son estudiados y que muestran lo que sucedió y cuando ocurrió. Estos casos de estudio ayudan a ver el impacto real de la no seguridad en un entorno de Inteligencia Artificial.


Esto es MITRE ATLAS. Un framework que proporciona una gran base de conocimiento para los profesionales de la seguridad, tanto desde el punto de vista ofensivo como desde el defensivo. Un mundo que puedes explorar, ya que hay un sinfín de conocimiento esperándote.

lunes, julio 14, 2025

Entrevista a Manuel S. Lemos: Hacking & Seguridad IA & OWASP GenAI Security Project

El mundo de la Inteligencia Artificial, y en concreto de la GenAI, ha traído un cambio brutal en el mundo empresarial, social y tecnológico. En concreto, los profesionales de Ciberseguridad hemos tenido que aprender nuevos conceptos, nuevas herramientas, nuevas metodologías de trabajo totalmente diferentes a cómo eran antes.
Un de los proyectos que más impacto están teniendo en este cambio dentro de nuestra profesión es el OWASP GenAI Security Project, que ha desarrollado la guía de OWASP Top 10 for LLM Applications, además de una visión 360º de la seguridad, con herramientas para Blue Team y para Red Team.
Uno de los profesionales que lleva años metido en este mundo, y que colabora como contribuidor de estos proyectos es Manuel Salvador Lemos Foncubierta, que además es CTO de Sincrolab, donde utilizan IA generativa para personalizar tratamientos neuropsicológicos, y está lanzando el proyecto de BeHumansX, una nueva startup enfocada en ayudar a organizaciones a integrar IA de forma segura, humana y responsable, con foco en Humanos Sintéticos y Ciberseguridad
Como estos temas son de total actualidad, y a mí me interesan muchísimo - ya lo sabéis si leéis este blog - le he hecho esta entrevista donde como veréis nos cuenta muchas cosas interesantes si te interesa este tema para hacer cosas. Aquí os la dejo, y si queréis contactar con él, ya sabéis que tiene su buzón en MyPublicInbox: Contactar con Manuel S. Lemos 

1.- Manuel, la primera pregunta es para los pentesters… ¿cómo utilizas tú la IA para hacer hacking?

En mi caso, más que usar la IA para hacer hacking, lo que hago es auditar sistemas que usan IA, que es otro mundo completamente distinto. Cuando una empresa mete un LLM en producción, suele asumir que es "inteligente" y, por tanto, "seguro". Pero no. Todo lo contrario.

Mi trabajo está en romper esa ilusión de seguridad, buscando cosas como prompt injection, data leakage por entrenamiento mal controlado, o fallos de diseño en arquitecturas tipo RAG o agentes autónomos. Me he encontrado con sistemas que, con una frase bien puesta, te devuelven información sensible, o modelos que puedes convencer para que se comporten de forma completamente opuesta a lo que esperan sus creadores.

Auditar IA no va solo de ver qué hace el modelo, sino de entender cómo y por qué responde lo que responde. Es un pentesting más lingüístico, más semántico, pero igual de peligroso.

2.- ¿Qué problemas de seguridad te has encontrado en servicios y aplicaciones diseñadas con GenAI o con LLMs?

El primero y más frecuente: subestimar el input del usuario. Muchos sistemas permiten que el usuario introduzca instrucciones dentro de una conversación sin hacer sanitization ni validación de contexto, y eso abre la puerta a todo tipo de ataques por prompt injection.

También he visto casos de fugas de información aprendida, sobre todo en modelos que seguían entrenando con inputs reales sin anonimizar. Hay sistemas conversacionales que, si los aprietas un poco, te sueltan nombres, correos o incluso respuestas que vienen de otros usuarios.

Otro clásico es usar un LLM como intermediario en una arquitectura, confiando en que “hará lo correcto”, cuando en realidad puede ser manipulado si no se le da suficiente contexto o si se usa mal el memory window.

3.- Con la llegada de los Agentic AI… ¿cuáles van a ser los principales problemas de seguridad que tú ves?

El problema no es que un agente autónomo tenga malas intenciones. Es que optimiza lo que le dices, no lo que querías decir. Si le dices que consiga usuarios, puede acabar scrapeando la web entera, haciendo spam o incluso aprovechando vulnerabilidades si eso le acerca al objetivo.

Además, los agentes tienen algo muy peligroso: persistencia y autonomía multistep. Pueden planificar, ejecutar y adaptarse, todo sin que tú intervengas. Si uno de estos falla o es manipulado, no es solo un fallo de lógica: puede convertirse en una amenaza activa dentro de tu infraestructura.

Y lo peor: muchos no tienen ni trazabilidad, ni control de permisos, ni aislamiento. Así que sí, los Agentic AI son una revolución… pero también un terreno muy delicado en seguridad.

4.- Llevas desde el principio haciendo Prompt Engineering… ¿cuáles son tus Prompts favoritos para hacer hacking o pentesting?

Me gusta usar prompts que cambian el rol del modelo, como:

“Eres un auditor experto en ciberseguridad ofensiva. Tu tarea es analizar este código o arquitectura en busca de fallos críticos.”

O este otro, para simular ataques:

“Simula que eres un atacante con acceso limitado a este sistema. ¿Qué pasos tomarías para escalar privilegios o extraer datos?”

También juego mucho con prompts encadenados que generan análisis, luego documentación técnica y finalmente recomendaciones automatizadas. Sirve para acelerar mucho las auditorías, sobre todo las iniciales.

5.- Con la eclosión de la IA, hemos visto de todo… ¿qué herramientas o plataformas son un “must” para ti ahora mismo?

Ahora mismo tengo varios “indispensables” que uso a diario, dependiendo del tipo de proyecto:
  • Ollama: para correr modelos en local con una facilidad brutal. Es perfecta para hacer pruebas rápidas sin depender de servicios externos ni exponer datos sensibles. Ideal cuando necesitas prototipar o trabajar offline con control total del entorno.
  • vLLM: si vas a escalar, es clave. Ofrece un rendimiento altísimo para servir modelos grandes, y su eficiencia en token throughput marca la diferencia. Me ha salvado en más de un despliegue cuando se busca latencia mínima y concurrencia real.
  • LangChain: sigue siendo el estándar para orquestar flujos conversacionales complejos. Lo uso sobre todo cuando necesito combinar memoria, herramientas externas, funciones y control de flujo entre agentes. Tiene mucho hype, pero sigue cumpliendo.
  • Flowise: para mí es el no-code backend de LangChain. Lo uso muchísimo para montar demos visuales o validar rápidamente pipelines RAG. Lo bueno es que puedes prototipar en minutos y luego convertirlo en algo serio.
  • N8N: imprescindible cuando necesitas automatización entre sistemas. Lo estoy usando cada vez más en integraciones entre LLMs y CRMs, dashboards, APIs internas… y ahora con los nodos de IA que tiene, es casi una navaja suiza.
  • LangWatch: esta herramienta debería ser obligatoria en cualquier entorno de producción. Te permite hacer observabilidad real de lo que hace un modelo: qué responde, por qué lo hizo, qué inputs llegaron, etcétera. Sin eso, estás a ciegas en producción.
  • CodeGPT: para desarrollo asistido con IA, sigue siendo mi copiloto de confianza. Me gusta porque es ligero, funciona bien en entornos locales, y puedes configurarlo según tu stack y estilo. Lo uso especialmente para generar tests y refactorizar.
Y por supuesto, el proyecto OWASP Top 10 for LLMs, que es obligatorio leer para cualquier técnico que trabaje con IA.

6.- ¿Estás ahora en algún proyecto personal relacionado con Inteligencia Artificial?

Sí, estoy con BeHumansX, una startup que acabo de lanzar centrada en integrar IA en organizaciones de forma ética y segura. Uno de nuestros enfoques es crear Humanos Sintéticos, asistentes conversacionales con identidad propia, personalizados, seguros y trazables. La otra línea es ciberseguridad aplicada a sistemas IA, desde auditorías hasta gobernanza.

También sigo en Sincrolab, donde usamos IA generativa para personalizar entrenamientos cognitivos en pacientes con TDAH, daño cerebral o Alzheimer. Es un reto porque ahí la IA no puede fallar: no estás optimizando clics, estás afectando vidas.

Y por último, hago consultorias y formación a startups para que consigan las mejores practicas a la hora de construir y monetizar un producto realizado con IA y que la organización se convierta en una “AI-First”

7.- Ahora estás colaborando en OWASP… ¿qué proyectos deberían seguir quienes se interesen por la IA y la ciberseguridad?

Lo principal es el OWASP Top 10 for LLM Applications, que recopila los principales riesgos de seguridad en entornos basados en modelos de lenguaje. Es una lectura imprescindible.
También recomiendo seguir de cerca iniciativas como el Prompt Injection Database o el naciente AI Exploits Framework, que están documentando casos reales de ataques y fallos en modelos de IA.

8.- ¿La IA nos va a llevar a un futuro mejor o al fin de la humanidad estilo Hollywood?

La IA es una tecnología amplificadora. Si se usa mal, puede acelerar desigualdades, vigilancia o manipulación masiva. Pero si se usa bien, puede democratizar el acceso al conocimiento, la salud y la creatividad.

El problema no es la IA, sino quién la entrena (o manda a entrenar), con qué datos y con qué objetivos. Si solo la dominan unos pocos, ya sabes cómo acaba la historia. Y por eso son tan fan de los modelos open.

9.- La Primera Guerra Mundial fue de gases y trincheras. La Segunda, de tanques y bombas. ¿Será la Tercera la de la IA?

Ya lo es. Pero es una guerra invisible. No hay trincheras, hay timelines. No hay bombas, hay deepfakes, campañas de desinformación, bots y manipulación algorítmica. Lo peligroso es que muchos ni siquiera saben que están en medio de ese conflicto.

10.- Para acabar con algo positivo… ¿tendremos un mundo más seguro o más inseguro con la IA?

A corto plazo, más inseguro. Toda tecnología nueva desestabiliza al principio. Pero si evolucionamos la defensa con la misma rapidez —o más— que la ofensiva, podemos llegar a un punto donde los sistemas sean más robustos, más resilientes y más éticos.

El reto es construir IA gobernada, trazable y explicable. Si lo conseguimos, será una de las mayores herramientas de seguridad (y en general) de nuestra era.

11.- ¿Cuál ha sido el fallo más inesperado que has encontrado en un sistema con IA?

Una plataforma de atención al cliente con un LLM fine-tuneado con conversaciones reales. El problema es que no se anonimizaron bien los datos y el modelo, bajo ciertas preguntas, acababa devolviendo fragmentos de otras conversaciones… con nombres, correos y hasta IBANs. Era como un data leak en diferido, pero generado. De lo más peligroso que he visto.

A muchas empresas les interesa subirse al carro de la IA, pero no saben por dónde empezar. Cuando te toca acompañar a equipos técnicos o directivos en ese proceso… ¿por dónde sueles empezar tú?

Lo primero es escuchar. No todas las empresas necesitan un chatbot ni un copiloto; muchas veces tienen problemas más estructurales: datos desordenados, procesos manuales o decisiones que se toman sin trazabilidad. La IA puede ayudar, pero no es magia.

Suelo empezar por detectar qué parte del proceso aporta más valor si se automatiza o potencia con IA. A veces es algo tan sencillo como clasificar tickets, otras es rediseñar cómo toman decisiones usando información en tiempo real.

Y algo importante: formar a los equipos desde el principio. No sirve de nada montar un modelo espectacular si nadie sabe usarlo o interpretarlo. Por eso trabajo mucho en acompañar tanto a perfiles técnicos como a negocio, para que entiendan lo que están usando, sus límites, y sobre todo, sus riesgos.

La clave no es implementar IA, sino hacerla sostenible y útil en el día a día.

PD: Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial 

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


viernes, junio 20, 2025

Vibe Hacking con Cybersecurity AI (CAI): Agentes AI autónomos para ciberseguridad ofensiva y defensiva

En 1997, IBM Deep Blue marcó un hito tecnológico al derrotar a Garry Kasparov en ajedrez. Este evento demostró que los sistemas computacionales podían superar el rendimiento humano en dominios específicos mediante algoritmos especializados y capacidad de procesamiento masivo. Ese momento estableció un precedente fundamental: la viabilidad de sistemas automatizados para resolver problemas complejos tradicionalmente reservados al intelecto humano.


En la actualidad, el dominio operacional ha evolucionado del tablero de ajedrez al ciberespacio. Los vectores de amenaza incluyen algoritmos maliciosos automatizados, botnets distribuidas y actores patrocinados por estados con recursos significativos. En este contexto, los factores críticos son la velocidad de respuesta, la adaptabilidad y la capacidad de procesamiento de datos en tiempo real. 
Cybersecurity AI (CAI) emerge como una arquitectura de agentes de IA que representa la evolución natural de sistemas especializados (Narrow AI) como Deep Blue y AlphaZero hacia aplicaciones generalizadas en el sector de tecnologías de la información.

Análisis del Ecosistema Actual de Ciberseguridad

El panorama actual presenta múltiples desafíos técnicos. Las vulnerabilidades proliferan exponencialmente en sistemas interconectados con arquitecturas cada vez más complejas. Los equipos de seguridad operan con recursos limitados contra amenazas persistentes y distribuidas. Los programas de recompensas por vulnerabilidades, aunque efectivos para la identificación de fallos, han generado una concentración de mercado donde pocas plataformas centralizan los datos de vulnerabilidades, utilizándolos para entrenar sistemas propietarios de IA.

Esta centralización genera ineficiencias operativas: tiempos de triaje prolongados, variabilidad en la calidad de los reportes y concentración del talento en programas específicos. Las pequeñas y medianas empresas, así como investigadores independientes, enfrentan barreras significativas de entrada.


CAI se propone como una solución arquitectónica a estos desafíos. No es un sistema monolítico, sino un framework modular de código abierto diseñado para la implementación de agentes especializados. La arquitectura aprovecha las capacidades de los Modelos de Lenguaje Grande (LLMs) mientras mantiene los estándares de usabilidad que los profesionales de ciberseguridad requieren. Funciona como una capa de abstracción entre las capacidades computacionales avanzadas y la implementación táctica especializada.

Análisis Comparativo: CAI vs Herramientas Tradicionales

Las herramientas tradicionales de ciberseguridad operan como instrumentos especializados de alta precisión: nmap para reconocimiento de red, sqlmap para evaluación de bases de datos, Metasploit como framework de explotación. Estas herramientas ejecutan funciones específicas siguiendo lógica deterministica y requieren operación manual para cada fase del proceso.


Arquitectura Técnica de CAI

CAI implementa una arquitectura basada en el modelo ReAct (Reasoning and Acting) con siete componentes principales:

1. Agentes: Entidades computacionales con prompts especializados, conjuntos de herramientas y lógica de actuación definida. Cada agente mantiene un contexto operacional y capacidades específicas.

2. Herramientas (Tools): Interfaces para la ejecución de acciones concretas, incluyendo:

○ Comandos del sistema operativo (nmap, curl, python)

○ APIs externas (Shodan, VirusTotal)

○ Manipulación de código y búsqueda web

○ Soporte para Model Context Protocol (MCP)

3. Transferencias (Handoffs): Mecanismo de delegación contextual entre agentes, permitiendo la especialización y distribución de tareas complejas.

4. Patrones (Patterns): Arquitecturas de coordinación multi-agente:

○ Enjambres: Intercambio dinámico de tareas entre agentes

○ Jerárquicos: Coordinación maestro-subordinado para operaciones complejas

○ Secuenciales: Ejecución en cadena con transferencia de estado

○ Paralelos: Ejecución concurrente de múltiples agentes

5. Turnos (Turns): Ciclos completos de interacción hasta alcanzar objetivos parciales o requerir intervención.

6. Human-In-The-Loop (HITL): Sistema de supervisión y control que permite intervención humana mediante interrupciones (Ctrl+C), revisión de razonamiento y control directo en puntos críticos.

7. Integración LLM: Compatibilidad con más de 300 modelos mediante LiteLLM, incluyendo GPT, Claude, DeepSeek y modelos locales vía Ollama.

Componentes de Soporte:
  • Extensiones: APIs para integración de nuevas herramientas
  • Trazabilidad: Logging completo vía OpenTelemetry para auditoría y análisis
Ejemplos de Implementación de Agentes:

Todos los agentes son capaces de realizar cualquier acción con las tools. El agente abstrae el workflow general, pero este flujo de trabajo no es estático.

  • Red Team Agent: Enfoque ofensivo con herramientas como nmap, metasploit-framework, hashcat
    • Lógica: reconocimiento → explotación → post-explotación.
  • Bug Bounty Hunter Agent: Especializado en aplicaciones web con nuclei, sqlmap, gobuster
    • Lógica: descubrimiento de activos → escaneo OWASP Top 10 → generación de PoCs.
  • Blue Team Agent: Orientado a defensa con osquery, sysmon, APIs SIEM.
    • Lógica: monitorización → análisis de comportamiento → respuesta a incidentes.
Validación Empírica y Métricas de Rendimiento

Competiciones CTF:

  • Métricas de velocidad: 938x más rápido en forense, 774x en ingeniería inversa, 741x en robótica.

Casos de Uso Prácticos:
  • Evaluación completa de robots industriales
  • Ascenso a Top 30 España / Top 500 mundial en Hack The Box en 7 días
  • CTFs competitivos
  • +5 Bug bounties confirmados con reward
  • +10 vulnerabilidades críticas encontradas en infraestructuras tecnológicas
Reducción de costes promedio: 156x comparado con métodos tradicionales.

Interfaz de Línea de Comandos

La CLI de CAI implementa comandos estructurados para gestión completa del sistema:

Figura 9: /agent - Gestión de agentes (list, select, info, configuración de patrones)

Figura 10: /model: Administración de LLMs (visualización de costes, cambio dinámico)

Figura 11: /compact: Resume el contexto para hacer ejercicios
durante horas sin importar la ventana de contexto

Figura 12: /history: Visualización de la lista de mensajes del agente por roles 

Figura 13: /graph: Visualización de la lista de mensajes del agente en grafo

Figura 14: /mcp: Integración de herramientas externas (Burp Suite, Ghidra)

Figura 15: /workspace, /config, /virt: Gestión de entornos, incluyendo contenedores Docker

Poe último se puede usar $ o /shell que da acceso directo a shell del sistema. Os dejamos por aquí unas Pruebas de Concepto.


Figura 17: Deepseek-Reasoner Portswigger XXE

Figura 18: alias0 MIR 100 Robot

Implicaciones para la Industria

El 82% de profesionales de ciberseguridad anticipan mejoras de eficiencia mediante IA. CAI materializa esta expectativa permitiendo:

● Pruebas de penetración continuas y paralelas
● Reducción drástica de costes operacionales
● Acceso democratizado a capacidades avanzadas de evaluación

También es importante resaltar que CAI aborda dos aspectos críticos a tener en cuenta en esta industria, como son:
  • Democratización: Acceso abierto a herramientas avanzadas de IA, no limitado a grandes corporaciones o actores estatales.
  • Transparencia en Capacidades: Los benchmarks actuales de proveedores de LLM suelen carecer de instrumentación agéntica adecuada, resultando en evaluaciones incompletas. CAI proporciona un benchmark realista de capacidades actuales mediante pruebas en escenarios operacionales completos.
Aplicaciones en Ciberseguridad Robótica

Los sistemas robóticos presentan desafíos únicos: fusión IT/OT, protocolos propietarios, ciclos de vida prolongados. CAI demuestra capacidades para:

● Identificación automatizada de configuraciones inseguras
● Análisis completo del stack tecnológico (OS hasta aplicaciones ROS)
● Implementación embebida en plataformas robóticas para autoprotección y respuesta autónoma

El mejor modelo para CAI: alias0

Si has llegado hasta aquí, seguro que este tema te apasiona. Y si desde el boom de ChatGPT has querido usar un LLM sin poner en riesgo tu privacidad,... no se trata solo de ti. Por eso, alias0 es el mejor modelo para utilizar CAI sin poner en riesgo tus datos, una solución especialmente diseñada para sacar el máximo rendimiento a los modelos SOTA (State-of-the-art)

Figura 19: Alias0

De esta forma, puedes trabajar con agentes inteligentes, mantener el control sobre tus datos y obtener el máximo rendimiento sin sacrificar lo que más queremos proteger, tu seguridad

Conclusiones Técnicas

El panorama de la ciberseguridad está cambiando a pasos agigantados. Las amenazas son cada vez más frecuentes, con ataques más rápidos, automatizados y complejos, mientras que muchas organizaciones siguen usando herramientas que siguen dependiendo de una intervención humana constante, y que siguen flujos fijos sin tener en cuenta la flexibilidad que demanda el panorama actual. En este contexto, CAI se presenta como una evolución necesaria: un sistema basado en agentes inteligentes que puede planificar, adaptar y ejecutar tareas de forma autónoma, y siempre bajo la posibilidad de supervisión humana.

CAI no es solo una herramienta más con la que rellenar un toolkit de ciberseguridad. Es una base flexible, gratuita y completamente abierta que permite orquestar no solo las herramientas que ya usamos en ciberseguridad, sino trabajar con tecnología puntera en Inteligencia Artificial. Todo esto, sin necesidad de ser un experto en ningún ámbito. CAI permite crear agentes especializados, usar LLMs y herramientas que ya usamos en ciberseguridad, entender el contexto, aprender del escenario y adaptar su forma de actuar según la situación. Todo esto le permite trabajar sin pausa, tomar decisiones y adaptarse constantemente a nuevos retos, algo que las herramientas clásicas simplemente no pueden hacer.

A corto plazo, esto se traduce en más velocidad, menos costes y mejores resultados tanto para profesionales como para pequeñas empresas o investigadores independientes. A medio y largo plazo, CAI puede marcar una diferencia real: democratizando el acceso a capacidades de ciberseguridad avanzadas, acelerando la respuesta ante incidentes y ayudando a proteger desde sistemas web hasta entornos robóticos complejos.

En resumen, CAI no solo automatiza tareas: cambia la forma en que entendemos y hacemos ciberseguridad.

Autores y AgradecimientosLuis Javier Navarrete LozanoMaría Sanz Gómez, Lidia Salas Espejo, Víctor Mayoral Vilches y el resto del equipo de Alias Robotics.


PD: Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: Inteligencia Artificial (Hacking & Security): Links, Posts, Talks & Papers.

jueves, junio 19, 2025

Hacer un "infector" del Master Boot Record (MBR) de un PC usando Windows con ChatGPT & DeepSeek

Tenemos en la pista de salida una cosa nueva que tiene que ver con "Hacking usando IA", y quería hacer yo una prueba de ver cómo se comportan los Guardarrailes de ChatGPT y DeepSeek con un ejemplo muy sencillo, crear un programa en Windows 7 que corriendo como SYSTEM, es decir, después de haber conseguido engañar al Administrador o hacer una Elevación de Privilegios, pudiera infectar el Master Boot Record (MBR) para interceptar el control de ejecución en un nuevo ColdBoot, algo que durante muchos años fue un ataque muy común en el mundo del malware.

Figura 1: Hacer un "infector" del Master Boot Record (MBR)
de un PC usando Windows con ChatGPT & DeepSeek

Este tipo de técnicas de control de MBR no son sólo utilizadas por el mundo del malware, sino que también se han utilizado para robar las claves de descrifrado de BitLocker o cualquier otro software de cifrado de disco con técnicas de ingeniería social.
Se trata de conseguir arrancar el equipo, mostrarle un mensaje por pantalla al usuario y luego volver a darle el control de arranque normal al equipo, pero por el camino te llevas las claves de cifrado. Así que puedes robar las claves de BitLocker o cifrar el disco duro tú y hacer un Ransomware.
En cualquiera de los dos casos, se pueden hacer cosas muy malas si controlas el MBR, porque has roto el Root-of-Trust del arranque de un equipo, así que cuando le pido esto a ChatGPT, como podéis ver en la imagen siguiente no me deja ni de broma

Figura 4: En ChatGPT salta el Harmful Mode

Había que probar no solo pidiéndoselo directamente, sino haciendo un poco de malabares con la petición a ver si se lo tomaba mejor, pero nada de nada, como veis por aquí.

Figura 5: No cuela ni de broma sin Prompt Injection

No me apetecía hacer el ataque de Prompt Injection a ChatGPT, que además, ya sé que si quiero esto se lo puedo pedir a WhiteRabbitNeo, como vimos en el artículo que os publiqué hace unos días, ya que ahí no existe el Harmful Mode.
Y aquí está el código en lenguaje Ensamblador (ASM), listo para que lo puedas compilar y tener el programa que necesitas para machacar el Master Boot Record de los Windows 7 corriendo como SYSTEM provisto por WhiteRabbitNeo.

Pero como lo que yo quería era ver cómo se comportaban los modelos de Deep Reasoning ante este problema para ver la calidad del código que generan, me fui a DeepSeek v3 DeepThink R1 y le pedí lo mismo, y como podéis ver tuve sorpresa.

Figura 8: En DeepSeek v3 DeepThink R1 no salta ninguna protección

En la imagen se ve que estuvo de "Thougth Time" algo así como más de cinco minutos y medio, y yo pensaba que al final iba a saltar el Guardarraíl o el Harmful Mode, pero nada, todo perfecto, y me hizo el código para el MBR, tal y como veis a continuación.

Figura 9: El código para el MBR

También añadió el código del "Infector" para ejecutar desde la máquina como SYSTEM en un Windows 7, todo muy bien apañado, por cierto.

Figura 10: El código para infectar el MBR desde Windows 7

Para dejarme al final las instrucciones de uso muy bien apañadas, en una bonita explicación clara de su uso y de las cosas que se podrían hacer para mejorarlo.

Figura 11: Instrucciones y... ¿necesitas más ayudar?

Llama la atención que DeepSeek v3 DeepThink R1 no tenga estas restricciones, la verdad, pero a lo mejor es simplemente que han decidido no ponerle puertas al campo, aunque está claro que estoy hablando de "infectar" en el Prompt. Curioso.


Al final, es sólo una curiosidad, pero está claro que la Inteligencia Artificial de hoy en día va a estar al servicio de hacer cosas malas, sí o sí, y que no podemos vivir a espaldas de esta realidad, así que más vale que nos preparemos para un entorno cada vez más virulento de ataques más elaborados.

PD: Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: Inteligencia Artificial (Hacking & Security): Links, Posts, Talks & Papers.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


jueves, junio 12, 2025

WhiteRabbitNeo un LLM (y un "ChatGPT") para el Red Team

El uso de LLMs en el mundo del hacking y el pentesting es algo habitual, pero tener que lidiar con los Guardarraíles y los detectores de Harmful Mode obligan a tirar de técnicas de Prompt Smuggling, Prompt Injection & Jailbreak para poder conseguir el objetivo, pero también tenemos algunos modelos como WhiteRabbitNeo, que es un LLM para que cargues en tu Ollama, para que lo uses en tu propio software de Pentesting & Hacking, o para que lo uses en su versión web - tipo ChatGPT - para hacer trabajos en el Red Team o en los equipos SecOps sin ninguna censura.
Tienes diferentes modelos de WhiteRabbitNeo directamente disponibles en Hugging Face, así que te lo descargas, lo instalas en tu Ollama - por ejemplo - y listo, ya puedes usarlo a tu gusto para hacer lo que quieras.

Como puedes ver tienes diferentes modelos, con diferentes versiones y con diferentes tamaños, así que puedes elegir el que mejor se adapte a tu equipo, a tu software, o a tus necesidades para el Red Team. Sabiendo que cuando lo descargues no habrá censura en lo que le pidas.
Para probarlo, veamos un ejemplo muy sencillo, donde le voy a pedir a ChatGPT que me ayude a hacer un programa para reemplazar el MBR de un PC desde un Windows 7 donde tengo permisos de System, para hacer un ataque de ColdBoot, meter un Ransomware, o lo que me plazca, pero lo que obtengo es que los Guardarraíles, analizando el código de salida, han bloqueado la petición.

Figura 4: Los Guardarraíles de ChatGPT bloquean el código

En este caso no se ha tratado del Harmful Mode, porque como se observa es un error al analizar los datos de salida - tampoco ha saltado el Guardarraíl de detección del Prompt, pero el caso es que no me ha dado la respuesta que quería.
Si se lo pedimos ahora la versión web de WhiteRabbitNeo el mismo Prompt, vamos a encontrar que no hay ningún control de Harmful Mode ni ningún Guardarraíl que bloquee ni el Prompt ni la respuesta que vamos a recibir.
Y aquí está el código en lenguaje Ensamblador (ASM), listo para que lo puedas compilar y tener el programa que necesitas para machacar el Master Boot Record de los Windows 7 corriendo como SYSTEM.

Podemos hacer un ejemplo ahora con un mensaje de Spear Phishing para atacar a Chema Alonso, y me generar un mensaje muy interesante para invitarme a una convención de Marvel Comics, así que voy a caer seguro. Eso sí, veis que le ha dado una Hallucination y me ha mandado a 2023... tengo que afinar el Prompt.
Si le pedimos ahora que nos haga la web para robar las credenciales simulando ser la CON de cómics, vemos que también nos lo genera, y podemos probarlo en nuestro sitio. Como podéis ver en el Prompt no hay problemas por dejar claro que es un Spear Phishing, o un malware, o lo que quieras.
Aquí le tenemos robándome las credenciales, aunque hay que hacerle un poco más de Vibe Coding a esta web para que quede más chula - eso os lo dejo a vosotros- que para escribir este artículo ya me vale con este ejemplo tan sencillo.
Lo que sí que no tiene es un entrenamiento con exploits. Si recordáis, hace tiempo os hable de 0Dai, una iniciativa de Luis Javier Navarrete Lozano, que por desgracia fue discontinuada, donde se podían pedir directamente exploits - como el de EternalBlue -, pero es porque ellos habían hecho una arquitectura más compleja para tener los exploits.


En el caso de WhiteRabbitNeo no tenemos los exploits, pero tú puedes descargarte la base de datos de exploits que quieras, y hacerte una arquitectura RAG con ellos para que cuando le pidas una exploit concreto, te lo pueda hacer.
Mi consejo es que te lo bajes, lo pruebes, y vayas viendo cómo le puedes sacar partido, porque los Red Team Copilots son y van a ser herramienta fundamental en el trabajo del día a día. ¿Usas tú otro modelo diferente? compártenoslo en los comentarios o en el chat público de El lado del mal en MyPublicInbox.

PD: Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: Inteligencia Artificial (Hacking & Security): Links, Posts, Talks & Papers.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares