martes, enero 27, 2026

Prompt Injection con Advesarial Preprocesing Attacks en Imágenes usando Anamorpher

Los ataques a los sistemas de Vision Artificial se conocen hace años, y he hablado de alguno de ellos por aquí, como por ejemplo de sistemas de reconocimiento facial explotados con imágenes de Morphing, o cómo se usan ataques de envenamiento para troyanizar los sistemas de reconocimiento visual con objetos en lugar de personas, y por supuesto, de las alucinaciones visuales, y las dillusions creadas por el entrenamiento con imágenes con ilusiones.
Hoy os quería hablar de los ataques de Prompt Injection contra los MM-LLMs utilizando los Ataques de Adversario frente a los algoritmos de Pre-Procesado Visual, que es una técnica que me encanta y de la que no os he hablado mucho. Sí que os hablé de cómo utilizarla en el artículo de "Indirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-Modales" donde os contaba como una conversación se podía ver envenenada por pedir al modelo que describiera una imagen. Pero... ¿cómo va el Prompt introducido en esa imagen?

Pues bien, tiene que llevar un Prompt escrito en ella, para que el modelo, cuando describa la imagen, lo pueda leer. Este procesado lo vimos en el artículo que os publiqué de "Cómo "Weaponizar" la generación de información que las apps y los servicios digitales ven en tus fotos". Allí, describía la foto anterior - una a la que le tengo mucho cariño - y como veis el modelo ve absolutamente todo. Y yo lo hice después con ChatGPT con varias fotos, obteniendo todo texto que hubiera allí, así que meter un Prompt Injection ahí o un Jailbreak es posible. Esta descripción, como os podéis imaginar, es también muy relevante para la resolución de Captchas Cognitivos.

Camuflaje de imágenes

Pero sería demasiado evidente, y se pueden utilizar ataques de Image Scaling porque, al final, lo que va a ver el MM-LLM no va a ser la imagen que tú subes. Tienes que tener en cuenta que las arquitecturas están diseñadas para ser óptimas, y en el análisis de las imágenes antes de pasa por un workflow de reducción de la resolución y preparación de la imagen para que el modelo la proceso mejor y más rápido. 
Así que el Prompt Injection no necesita estar en la visualización que tu tienes de la imagen cuando la subes, sino en la visualización de la imagen cuando se pre-procesa.
En este ejemplo tienes unas ovejas, pero cuando el algoritmo de escalado que utilizan los Cognitive Services la describen, lo que ellos ven es un lobo blanco. Eso es porque la imagen original se ha construido para que los píxeles que queden después del escalado sean los que forman la imagen objetivo.


Esto es lo que hacen los ataques de Image Scaling, que se presentaron en la conferencia de UXENIX en el año 2019, y que tienes en el paper de "Seeing is Not Believing: Camouflage Attacks on Image Scaling Algorithms" que merece la pena que te leas.
Visto esta técnica, lo que hay que preguntarse es qué algoritmos de escalado utilizan los MM-LLMs que se quieren atacar, y construir la imagen con el Prompt Injection para este ataque. Esto es lo que se hizo en la investigación de "Weaponizing image scaling against production AI systems", para introducir Prompts Maliciosos camuflados en imágenes.


Para hacer esta preparación de las imágenes, los investigadores crearon la herramienta Anamorpher que puedes descargarte desde GitHub, y poder construir las imágenes con el ataque de camuflaje que quieras - cada uno funcionará para uno u otro modelo de Visión Artificial -. Tienes toda la información de la herramienta en su repositorio: https://github.com/trailofbits/anamorpher
Y para que veáis como funciona, en el artículo tienes un par de demostraciones chulas. Esta frente a GenSpark, pero también tienes demos con Vertex AI con Gemini, Gemini vía web interface y vía API, además de  Google Assistant en un Android.
Y para que lo podáis ver también con Gemini 2.5 en Google Vertex AI, que también hace pre-procesado de imágenes, y que ahora deberá pasar los textos de las imágenes por Guardarraíles para detectar los Prompts embebidos.

No es un tema nuevo, pero no os había escrito sobre él, y me parecía muy chulo. Lo he estado revisando para nuestro nuevo libro que saldrá dentro de poco, que será una continuación del que ya hemos publicado de Hacking & Pentesting con Inteligencia Artificial, así que si no te lo tienes aún, deberías comprarlo y estudiártelo que en nada llega la segunda parte.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.


¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

Sólo hasta el Domingo 25 de Enero. Código de Rebajas de Enero 2026 en 0xWord: Cupón REBAJAS2026 y descuentos con Tempos de MyPublicInbox

Quedan tres días, hasta el DOMINGO , así que os lo recuerdo. Sólo hasta el día  25 de Enero de 2026  estará activo el  Código de Rebajas de ...

Entradas populares