Un informático en el lado del mal: Prompt Injection con Advesarial Preprocesing Attacks en Imágenes usando Anamorpher

martes, enero 27, 2026

Prompt Injection con Advesarial Preprocesing Attacks en Imágenes usando Anamorpher

Los ataques a los sistemas de Vision Artificial se conocen hace años, y he hablado de alguno de ellos por aquí, como por ejemplo de sistemas de reconocimiento facial explotados con imágenes de Morphing, o cómo se usan ataques de envenamiento para troyanizar los sistemas de reconocimiento visual con objetos en lugar de personas, y por supuesto, de las alucinaciones visuales, y las dillusions creadas por el entrenamiento con imágenes con ilusiones.

Figura 1: Prompt Injection con Advesarial Preprocesing

Attacks en Imágenes usando Anamorpher

Hoy os quería hablar de los ataques de Prompt Injection contra los MM-LLMs utilizando los Ataques de Adversario frente a los algoritmos de Pre-Procesado Visual, que es una técnica que me encanta y de la que no os he hablado mucho. Sí que os hablé de cómo utilizarla en el artículo de "Indirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-Modales" donde os contaba como una conversación se podía ver envenenada por pedir al modelo que describiera una imagen. Pero... ¿cómo va el Prompt introducido en esa imagen?

Figura 2: Logos, lugares, metadatos, fechas, descripción

Pues bien, tiene que llevar un Prompt escrito en ella, para que el modelo, cuando describa la imagen, lo pueda leer. Este procesado lo vimos en el artículo que os publiqué de "Cómo "Weaponizar" la generación de información que las apps y los servicios digitales ven en tus fotos". Allí, describía la foto anterior - una a la que le tengo mucho cariño - y como veis el modelo ve absolutamente todo. Y yo lo hice después con ChatGPT con varias fotos, obteniendo todo texto que hubiera allí, así que meter un Prompt Injection ahí o un Jailbreak es posible. Esta descripción, como os podéis imaginar, es también muy relevante para la resolución de Captchas Cognitivos.

Camuflaje de imágenes

Pero sería demasiado evidente, y se pueden utilizar ataques de Image Scaling porque, al final, lo que va a ver el MM-LLM no va a ser la imagen que tú subes. Tienes que tener en cuenta que las arquitecturas están diseñadas para ser óptimas, y en el análisis de las imágenes antes de pasa por un workflow de reducción de la resolución y preparación de la imagen para que el modelo la proceso mejor y más rápido.

Figura 3: Izquierda lo que se ve antes del procesado.

Imagen derecha lo que se ve después del procesado.

Así que el Prompt Injection no necesita estar en la visualización que tu tienes de la imagen cuando la subes, sino en la visualización de la imagen cuando se pre-procesa.

Figura 4: Descripción de un Cognitive Service de la foto

En este ejemplo tienes unas ovejas, pero cuando el algoritmo de escalado que utilizan los Cognitive Services la describen, lo que ellos ven es un lobo blanco. Eso es porque la imagen original se ha construido para que los píxeles que queden después del escalado sean los que forman la imagen objetivo.

Figura 5: Resultados en diferentes Cognitives Services

Esto es lo que hacen los ataques de Image Scaling, que se presentaron en la conferencia de UXENIX en el año 2019, y que tienes en el paper de "Seeing is Not Believing: Camouflage Attacks on Image Scaling Algorithms" que merece la pena que te leas.

Figura 6: Seeing is Not Believing: Camouflage Attacks on Image Scaling Algorithms

Visto esta técnica, lo que hay que preguntarse es qué algoritmos de escalado utilizan los MM-LLMs que se quieren atacar, y construir la imagen con el Prompt Injection para este ataque. Esto es lo que se hizo en la investigación de "Weaponizing image scaling against production AI systems", para introducir Prompts Maliciosos camuflados en imágenes.

Figura 7: Imagen con un Prompt Injection que se ve cuando se escala

Para hacer esta preparación de las imágenes, los investigadores crearon la herramienta Anamorpher que puedes descargarte desde GitHub, y poder construir las imágenes con el ataque de camuflaje que quieras - cada uno funcionará para uno u otro modelo de Visión Artificial -. Tienes toda la información de la herramienta en su repositorio: https://github.com/trailofbits/anamorpher

Figura 8: Anarmorpher en GitHub

Y para que veáis como funciona, en el artículo tienes un par de demostraciones chulas. Esta frente a GenSpark, pero también tienes demos con Vertex AI con Gemini, Gemini vía web interface y vía API, además de Google Assistant en un Android.

Figura 9: Ataque de Prompt Injection con Image Scaling en GenSpark

Y para que lo podáis ver también con Gemini 2.5 en Google Vertex AI, que también hace pre-procesado de imágenes, y que ahora deberá pasar los textos de las imágenes por Guardarraíles para detectar los Prompts embebidos.

Figura 10: Demo con Vertex AI usando Gemini 2.5

No es un tema nuevo, pero no os había escrito sobre él, y me parecía muy chulo. Lo he estado revisando para nuestro nuevo libro que saldrá dentro de poco, que será una continuación del que ya hemos publicado de Hacking & Pentesting con Inteligencia Artificial, así que si no te lo tienes aún, deberías comprarlo y estudiártelo que en nada llega la segunda parte.

Figura 11: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

1 comentario:

Marco Antonio Pérez Peña (MAPP) dijo...: Título: IA Vulnerable y Defensa Activa: De vLLM a MarkSentinel

La IA no es magia, es código, y el código se rompe. En mi última auditoría al motor de inferencia vLLM, confirmé vulnerabilidades críticas de Ejecución Remota de Código (RCE) y fallos de deserialización (torch.load). Si no parchas tu motor, tu infraestructura ya no es tuya.

Pero el vector de ataque evoluciona. Mediante Adversarial Preprocessing (como Anamorpher), una imagen inocente puede mutar al ser redimensionada, inyectando comandos que la IA ejecuta sin saberlo. El "Prompt Injection" ahora entra por los ojos.

Ante este escenario, la defensa pasiva es inútil. Por eso desarrollé MarkSentinel, una herramienta de defensa activa en C++ y Python. MarkSentinel no solo audita; realiza un mapeo en tiempo real de activos en la Blockchain y monitorea carteras institucionales. Si detecta una intrusión o caída de balance anómala, ejecuta un Kill Switch automático.

La ciberseguridad hoy exige tres cosas: auditar el motor, desconfiar del input visual y programar tus propios centinelas.

Sed buenos.; 31/1/26 3:20 p. m.

Publicar un comentario

Un informático en el lado del mal

Buscar artículo

Reunirse con Chema Alonso

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

martes, enero 27, 2026

Prompt Injection con Advesarial Preprocesing Attacks en Imágenes usando Anamorpher

1 comentario:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Hacking & Pentesting con Inteligencia Artificial

Chat Público de "El lado del Mal"

Singularity Hackers

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Un informático en el lado del mal

Buscar artículo

Reunirse con Chema Alonso

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

martes, enero 27, 2026

Prompt Injection con Advesarial Preprocesing Attacks en Imágenes usando Anamorpher

1 comentario:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Hacking & Pentesting con Inteligencia Artificial

Chat Público de "El lado del Mal"

Singularity Hackers

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection