viernes, febrero 06, 2026

Smuggling de imágenes Píxel a Píxel en LLMs

Cuando estaba escribiendo este artículo me he acordado de la historia que os conté de una de las pruebas de acceso que hacía a los chavales que querían acceder al programa Talentum. En aquel momento, como quería saber cuáles eran sus capacidades programando les ponía problemas curiosos. Uno de ellos consistía en pintar un recta píxel a píxel. Esa es exactamente la idea de esta prueba que hice con ChatGPT  para pasar de contrabando imágenes por los Guardrails.

Figura 1: Smuggling de imágenes Píxel a Píxel en LLMs

La idea es sencilla, si ChatGPT me pilló con el Guardarraíl cuando la imagen estaba a punto de salir, lo que tendría que hacer es saltarme ese control haciendo que por allí no pasara una imagen. Por supuesto no iba a ser sencillo. 

Como veis en estas dos imágenes cuando la imagen es generada, antes de que yo pueda ver el resultado, el Guardarraíl que analiza el resultado y me lo bloquea. No ha sido el Guardarraíl de ida, no ha sido el Harmful Mode, ha sido el Guardarraíl de análisis de respuesta.
Y como os conté, cuando pensé en encadenar un KROP para hacer Jailbreak, con una respuesta en cifrada como os conté ayer en el artículo de "Cyphering Prompts & Answers para evadir guardarraíles". 

Pero ChatGPT detecta estas técnicas y las tiene ya protegidas, o aparentemente, que al final di con un truco que parece que funciona bien. Lo depuro y os lo cuento.

No obstante, como soy un cabezón, decidí darle otra vuelta e intentar hacer un proceso de confusión distinto. 

Sacando las imágenes píxel a píxel

Abrí nueva sesión, y le pedí hacer un proceso automático de QA con el análisis de imágenes, a ver si cambiando radicalmente su atención era capaz de lograr sacar las imágenes píxel a píxel.

Figura 6: Pásame las imágenes píxel a píxel

Para hacer la prueba usé imágenes muy pequeñas de 50x50 píxeles, así que no os esperéis resultados en HD en la salida, que el objetivo era ver si este proceso acaba funcionando. Primero le pedí círculos, cuadrados, etc.. y luego ya empecé a pedirle cosas más cercanas al Harmful Mode.

Figura 7: Para que me la diera completa en la respuesta la bajé a 25x25 píxeles

Como podéis ver tuve que hacer pruebas de ajustes de tamaño, y cambiar diferentes peticiones de contenido en las imágenes, para ir ajustando el tiro.

Figura 8: en 100x100 píxeles en un CSV

Ahora, pidiéndole una imagen del cantante que más discos ha vendido de la historia - que es Michael Jackson - a ver qué me hacía en 50x50 y en 100x100 píxeles, me devuelve un CSV. Ese fichero lo abrí con Numbers / Excel, ( ¡Qué recuerdos las veces que he usado el EXCEL para cosas de hacking!) y pinté yo las celdas siguiente los números.

Figura 9: La imagen decodificada con mis colores

Me estuve riendo un rato yo solo mientras lo veía. Está claro que, ver en esos colores a Michael Jackson sería tener una imaginación descontrolada, pero desde luego es una imagen conceptual de alguien cantando hecha con un 50x50 píxeles. A saber qué gaitas ha pensado en su origen y qué proceso ha seguido para enviar esa imagen píxel a píxel.

Figura 10: Probando el KROP con los píxeles

La última prueba era ver si el Knowledge Return Oriented Prompt Attack funcionaba ahora que tenía el sistema haciendo imágenes píxeles a píxeles, y me generó esta imagen en formato CSV que no he pintado porque se ve suficientemente bien. Maravilloso.

Figura 11: Las tres imágenes. Brutal XD

Al final no he sacado una imagen ilegal de lo que buscaba - ¿o sí? - pero desde luego esta forma de codificar imágenes me ha dado mucho juego. La idea de los Prompts y las respuestas cifradas que hacíamos en la investigación del problema de los prisioneros y el policía, y que también usa MetaCypher tiene su utilidad, clarisimamente.

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

Apúntate al Cloudflare Immerse Madrid: 19 de Febrero de 2026

Queda menos de un mes para el  Cloudflare Immerse Madrid 2026 , que tendrá lugar en España , con una agenda de tecnología con grandes ponent...

Entradas populares