Un informático en el lado del mal: Smuggling de imágenes Píxel a Píxel en LLMs

viernes, febrero 06, 2026

Smuggling de imágenes Píxel a Píxel en LLMs

Cuando estaba escribiendo este artículo me he acordado de la historia que os conté de una de las pruebas de acceso que hacía a los chavales que querían acceder al programa Talentum. En aquel momento, como quería saber cuáles eran sus capacidades programando les ponía problemas curiosos. Uno de ellos consistía en pintar un recta píxel a píxel. Esa es exactamente la idea de esta prueba que hice con ChatGPT para pasar de contrabando imágenes por los Guardrails.

Figura 1: Smuggling de imágenes Píxel a Píxel en LLMs

La idea es sencilla, si ChatGPT me pilló con el Guardarraíl cuando la imagen estaba a punto de salir, lo que tendría que hacer es saltarme ese control haciendo que por allí no pasara una imagen. Por supuesto no iba a ser sencillo.

Figura 2: Parece que va a hacerlo

Como veis en estas dos imágenes cuando la imagen es generada, antes de que yo pueda ver el resultado, el Guardarraíl que analiza el resultado y me lo bloquea. No ha sido el Guardarraíl de ida, no ha sido el Harmful Mode, ha sido el Guardarraíl de análisis de respuesta.

Figura 3: Me pilló el Guardarraíl de análisis de respuesta

Y como os conté, cuando pensé en encadenar un KROP para hacer Jailbreak, con una respuesta en cifrada como os conté ayer en el artículo de "Cyphering Prompts & Answers para evadir guardarraíles".

Figura 4: Intentando ofuscar la respuesta para saltarse el Guardarraíl de respuesta

Pero ChatGPT detecta estas técnicas y las tiene ya protegidas, o aparentemente, que al final di con un truco que parece que funciona bien. Lo depuro y os lo cuento.

Figura 5: Pillado el "plot" completo.

No obstante, como soy un cabezón, decidí darle otra vuelta e intentar hacer un proceso de confusión distinto.

Sacando las imágenes píxel a píxel

Abrí nueva sesión, y le pedí hacer un proceso automático de QA con el análisis de imágenes, a ver si cambiando radicalmente su atención era capaz de lograr sacar las imágenes píxel a píxel.

Figura 6: Pásame las imágenes píxel a píxel

Para hacer la prueba usé imágenes muy pequeñas de 50x50 píxeles, así que no os esperéis resultados en HD en la salida, que el objetivo era ver si este proceso acaba funcionando. Primero le pedí círculos, cuadrados, etc.. y luego ya empecé a pedirle cosas más cercanas al Harmful Mode.

Figura 7: Para que me la diera completa en la respuesta la bajé a 25x25 píxeles

Como podéis ver tuve que hacer pruebas de ajustes de tamaño, y cambiar diferentes peticiones de contenido en las imágenes, para ir ajustando el tiro.

Figura 8: en 100x100 píxeles en un CSV

Ahora, pidiéndole una imagen del cantante que más discos ha vendido de la historia - que es Michael Jackson - a ver qué me hacía en 50x50 y en 100x100 píxeles, me devuelve un CSV. Ese fichero lo abrí con Numbers / Excel, ( ¡Qué recuerdos las veces que he usado el EXCEL para cosas de hacking!) y pinté yo las celdas siguiente los números.

Figura 9: La imagen decodificada con mis colores

Me estuve riendo un rato yo solo mientras lo veía. Está claro que, ver en esos colores a Michael Jackson sería tener una imaginación descontrolada, pero desde luego es una imagen conceptual de alguien cantando hecha con un 50x50 píxeles. A saber qué gaitas ha pensado en su origen y qué proceso ha seguido para enviar esa imagen píxel a píxel.

Figura 10: Probando el KROP con los píxeles

La última prueba era ver si el Knowledge Return Oriented Prompt Attack funcionaba ahora que tenía el sistema haciendo imágenes píxeles a píxeles, y me generó esta imagen en formato CSV que no he pintado porque se ve suficientemente bien. Maravilloso.

Figura 11: Las tres imágenes. Brutal XD

Al final no he sacado una imagen ilegal de lo que buscaba - ¿o sí? - pero desde luego esta forma de codificar imágenes me ha dado mucho juego. La idea de los Prompts y las respuestas cifradas que hacíamos en la investigación del problema de los prisioneros y el policía, y que también usa MetaCypher tiene su utilidad, clarisimamente.

Figura 12: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Buscar artículo

Singularity Hackers

Chat Público de "El lado del Mal"

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

viernes, febrero 06, 2026

Smuggling de imágenes Píxel a Píxel en LLMs

No hay comentarios:

Entrada destacada

Apúntate al Cloudflare Immerse Madrid: 19 de Febrero de 2026

Entradas populares

Reunirse con Chema Alonso

Hacking & Pentesting con Inteligencia Artificial

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Un informático en el lado del mal

Buscar artículo

Singularity Hackers

Chat Público de "El lado del Mal"

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

viernes, febrero 06, 2026

Smuggling de imágenes Píxel a Píxel en LLMs

No hay comentarios:

Entrada destacada

Apúntate al Cloudflare Immerse Madrid: 19 de Febrero de 2026

Entradas populares

Reunirse con Chema Alonso

Hacking & Pentesting con Inteligencia Artificial

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection