sábado, septiembre 27, 2025

ForcedLeak: Indired Prompt Injection en Salesforce AgentForce

Teniendo en cuenta que los LLMs que tenemos hoy en día no tienen ninguna protección por diseño contra los ataques de Prompt Injection, la única defensa posible contra estas debilidades son System Prompts lo más robustos posibles, y Guardarrailes que filtren los Pompts de entrada, y los datos de salida, junto a verificación de alineación entre el objetivo inicial del Prompt y las acciones que está realizando el agente. O lo que es lo mismo, añadir capas de protección a un modelo inseguro por diseño.
El último en sufrir uno de estos ataques, llamado ForcedLeak, ha sido AgentForce de SalesForce, pero no es ni el primero ni será el único, que ya hemos visto muchos de estos casos, como tenéis en estos artículos que tenéis publicados aquí:
En el caso de AgentForce de SalesForce, los investigadores han publicado ForcedLeak, un Indirect Prompt Injection que permite exfiltrar información de dentro del sistema, aprovechándose de un fallo de configuración en las Content-Security Policies de SalesForce.
El esquema del ataque completo lo tenéis en el siguiente vídeo que han publicado los investigadores de Noma Security, donde se ven las diferentes fases, que luego vamos a ver en capturas una a a una.
Para poder exfiltrar los datos, los atacantes descubrieron que uno de los dominios que Salesforce tiene en las Content-Security Policies (CSP) de la web donde se despliega y ejecuta AgentForce como autorizado para cargar contenido externo estaba caducado, así que lo primero que hicieron fue registrarlo y controlar el contenido que allí se publica. 
Una vez que se sabía cómo se iban a sacar los datos, los investigadores buscaron cómo ejecutar el ataque de Prompt Injection, y lo hicieron en el campo descripción del formulario Web-to-Lead donde alguien puede contactar con el equipo comercial que usa Salesforce.
Como se puede ver en la imagen anterior, el ataque hace cuatro peticiones, siendo la segunda para despistar, la tercera para conseguir los datos a exfiltrar y la cuarta para componer la exfiltración insertando los datos obtenidos en la acción 3 en la URL de petición de una foto a cargar desde el dominio autorizado en las CSP. Todo esto, al formulario Web-to-Lead en la parte de descripción, como se ve en la imagen siguiente.
Esta información llega a la consola de Salesforce, y allí, si un usuario le pide a AgentForce que conteste a las preguntas que han llegado en el formulario, lo que sucede es que se ejecuta el ataque de Prompt Injection, como puedes ver a continuación.
El resultado es que se ejecuta el payload del ataque, se genera la previsualización con la imagen de un dulce perrito en este caso, y con la URL de petición llevando los datos que se ven justo antes de cargar la imagen.
Los datos los podemos ver en el log del servidor web montado en el dominio autorizado en las CSP de Salesforce, lo que permite que se puedan ver en texto claro los datos solicitados en esta PoC, como tenéis en la imagen siguiente.
Al final, el que no tengamos soluciones de protección contra técnicas de Prompt Injection por diseño generan estas situaciones, donde grandes empresas se ven afectadas una y otra vez por esta misma forma de conseguir que el modelo de IA se ponga a trabajar para el atacante. En este vídeo, tenéis el proceso completo en tiempo real.

Algunas de las propuestas por los investigadores para evitar estas técnicas de Prompt Injection por diseño las podéis leer en estos artículos:
De todo eso ya os hablé en la charla que di en OpenExpo Europe 2025 / Metaworld Congress 2025 titulada "Hackin’ AI: Creando una IA… ¿Qué puede salir mal?", donde también aproveché a contar muchas cosas de por qué esto es así, que hay que entender bien el funcionamiento de estos modelos para saber por qué nos suceden estos problemas.

Figura 11: "Hackin’ AI: Creando una IA… ¿Qué puede salir mal?"

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares