sábado, septiembre 20, 2025

ShadowLeak Attack para Agentes IA de Deep Research en ChatGPT

Hace un par de días los investigadores de Radware han hecho público "ShadowLeak", un Indirect Prompt Injection Attack que afectaba al modelo de Agentes IA hechos con Deep Research en ChatGPT, por el cuál es posible robar información personal de las víctimas (PII: Personal Indentificable Information).
Los Agentes IA pueden realizar tareas complejas de búsqueda y análisis de información a través de todo Internet, pero también en cualquier base de datos documental a la que se le haya dado acceso mediante permisos, com por ejemplo un gestor de ficheros en la nube o el correo electrónico.
OpenAI tiene Agentes IA que funcionan con Deep Research que pueden analizar todo el contenido de tu correo electrónico de Gmail, con el permiso adecuado, para tener información de todo lo que allí almacenas, que generalmente es mucho. 
En este caso, el atacante va a dear plantado primero en la víctima un correo electrónico con todas las instrucciones para que el Agente IA de Deep Research se salte las protecciones, es decir, lo que sería el ataque de Indirect Prompt Injection, tal y como se ve en la imagen siguiente.
En el correo se saltan los controles suponiendo que en algún mensaje del buzón están los datos personales de la víctima que se busca - algo que se puede hacer para solicitar viajes, envío de paquetes, etcétera -. También añade sentimiento de urgencia para que haya un Deadline, en este caso EOD (End of Day). Se hace creer al modelo que la información es pública, para que se rebaje el nivel de seguridad.
Por último, se da la orden con autoridad, que se refuerza a lo largo del mensaje, y se le pide que envíe esos datos a una URL donde se enviará como parámetros de la llamada, poniendo énfasis en el formato en que deben ser enviados los datos con un ejemplo.
Una vez implantado el mensaje en el buzón de la víctima, el atacante solo debe esperar a que esta utilice en ChatGPT un Agente de Deep Research para analizar su buzón, con algo similar a este comando.
El resto es lo que os imagináis, el Agente IA de ChatGPT Deep Research va a exfiltrar la información con los datos PII que haya encontrado en el buzón, lo que permite que el atacante consiga los datos de la víctima que desea.
Como decía al principio, esto se puede hacer no solo con Gmail, que es el ejemplo, sino con cualquier otro repositorio documental al que se le dé acceso al Agente IA, así que el riesgo era alto y los equipos de seguridad de OpenAI han solucionado este Indirect Prompt Injection ya.



Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares