Prompt Injection con Advesarial Preprocesing Attacks en Imágenes usando Anamorpher
Los ataques a los sistemas de Vision Artificial se conocen hace años, y he hablado de alguno de ellos por aquí, como por ejemplo de sistemas de reconocimiento facial explotados con imágenes de Morphing, o cómo se usan ataques de envenamiento para troyanizar los sistemas de reconocimiento visual con objetos en lugar de personas, y por supuesto, de las alucinaciones visuales, y las dillusions creadas por el entrenamiento con imágenes con ilusiones.
Hoy os quería hablar de los ataques de Prompt Injection contra los MM-LLMs utilizando los Ataques de Adversario frente a los algoritmos de Pre-Procesado Visual, que es una técnica que me encanta y de la que no os he hablado mucho. Sí que os hablé de cómo utilizarla en el artículo de "Indirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-Modales" donde os contaba como una conversación se podía ver envenenada por pedir al modelo que describiera una imagen. Pero... ¿cómo va el Prompt introducido en esa imagen?
Pues bien, tiene que llevar un Prompt escrito en ella, para que el modelo, cuando describa la imagen, lo pueda leer. Este procesado lo vimos en el artículo que os publiqué de "Cómo "Weaponizar" la generación de información que las apps y los servicios digitales ven en tus fotos". Allí, describía la foto anterior - una a la que le tengo mucho cariño - y como veis el modelo ve absolutamente todo. Y yo lo hice después con ChatGPT con varias fotos, obteniendo todo texto que hubiera allí, así que meter un Prompt Injection ahí o un Jailbreak es posible. Esta descripción, como os podéis imaginar, es también muy relevante para la resolución de Captchas Cognitivos.
Camuflaje de imágenes
Pero sería demasiado evidente, y se pueden utilizar ataques de Image Scaling porque, al final, lo que va a ver el MM-LLM no va a ser la imagen que tú subes. Tienes que tener en cuenta que las arquitecturas están diseñadas para ser óptimas, y en el análisis de las imágenes antes de pasa por un workflow de reducción de la resolución y preparación de la imagen para que el modelo la proceso mejor y más rápido.
Así que el Prompt Injection no necesita estar en la visualización que tu tienes de la imagen cuando la subes, sino en la visualización de la imagen cuando se pre-procesa.
En este ejemplo tienes unas ovejas, pero cuando el algoritmo de escalado que utilizan los Cognitive Services la describen, lo que ellos ven es un lobo blanco. Eso es porque la imagen original se ha construido para que los píxeles que queden después del escalado sean los que forman la imagen objetivo.
Esto es lo que hacen los ataques de Image Scaling, que se presentaron en la conferencia de UXENIX en el año 2019, y que tienes en el paper de "Seeing is Not Believing: Camouflage Attacks on Image Scaling Algorithms" que merece la pena que te leas.
Visto esta técnica, lo que hay que preguntarse es qué algoritmos de escalado utilizan los MM-LLMs que se quieren atacar, y construir la imagen con el Prompt Injection para este ataque. Esto es lo que se hizo en la investigación de "Weaponizing image scaling against production AI systems", para introducir Prompts Maliciosos camuflados en imágenes.
Y para que veáis como funciona, en el artículo tienes un par de demostraciones chulas. Esta frente a GenSpark, pero también tienes demos con Vertex AI con Gemini, Gemini vía web interface y vía API, además de Google Assistant en un Android.
Y para que lo podáis ver también con Gemini 2.5 en Google Vertex AI, que también hace pre-procesado de imágenes, y que ahora deberá pasar los textos de las imágenes por Guardarraíles para detectar los Prompts embebidos.
Figura 10: Demo con Vertex AI usando Gemini 2.5
No es un tema nuevo, pero no os había escrito sobre él, y me parecía muy chulo. Lo he estado revisando para nuestro nuevo libro que saldrá dentro de poco, que será una continuación del que ya hemos publicado de Hacking & Pentesting con Inteligencia Artificial, así que si no te lo tienes aún, deberías comprarlo y estudiártelo que en nada llega la segunda parte.
Figura 11: Hacking & Pentesting con Inteligencia Artificial.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)



DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 















No hay comentarios:
Publicar un comentario