Smuggling de imágenes Píxel a Píxel en LLMs
Cuando estaba escribiendo este artículo me he acordado de la historia que os conté de una de las pruebas de acceso que hacía a los chavales que querían acceder al programa Talentum. En aquel momento, como quería saber cuáles eran sus capacidades programando les ponía problemas curiosos. Uno de ellos consistía en pintar un recta píxel a píxel. Esa es exactamente la idea de esta prueba que hice con ChatGPT para pasar de contrabando imágenes por los Guardrails.
La idea es sencilla, si ChatGPT me pilló con el Guardarraíl cuando la imagen estaba a punto de salir, lo que tendría que hacer es saltarme ese control haciendo que por allí no pasara una imagen. Por supuesto no iba a ser sencillo.
Figura 2: Parece que va a hacerlo
Como veis en estas dos imágenes cuando la imagen es generada, antes de que yo pueda ver el resultado, el Guardarraíl que analiza el resultado y me lo bloquea. No ha sido el Guardarraíl de ida, no ha sido el Harmful Mode, ha sido el Guardarraíl de análisis de respuesta.
Y como os conté, cuando pensé en encadenar un KROP para hacer Jailbreak, con una respuesta en cifrada como os conté ayer en el artículo de "Cyphering Prompts & Answers para evadir guardarraíles".
Pero ChatGPT detecta estas técnicas y las tiene ya protegidas, o aparentemente, que al final di con un truco que parece que funciona bien. Lo depuro y os lo cuento.
Figura 5: Pillado el "plot" completo.
No obstante, como soy un cabezón, decidí darle otra vuelta e intentar hacer un proceso de confusión distinto.
Sacando las imágenes píxel a píxel
Abrí nueva sesión, y le pedí hacer un proceso automático de QA con el análisis de imágenes, a ver si cambiando radicalmente su atención era capaz de lograr sacar las imágenes píxel a píxel.
Para hacer la prueba usé imágenes muy pequeñas de 50x50 píxeles, así que no os esperéis resultados en HD en la salida, que el objetivo era ver si este proceso acaba funcionando. Primero le pedí círculos, cuadrados, etc.. y luego ya empecé a pedirle cosas más cercanas al Harmful Mode.
Como podéis ver tuve que hacer pruebas de ajustes de tamaño, y cambiar diferentes peticiones de contenido en las imágenes, para ir ajustando el tiro.
Ahora, pidiéndole una imagen del cantante que más discos ha vendido de la historia - que es Michael Jackson - a ver qué me hacía en 50x50 y en 100x100 píxeles, me devuelve un CSV. Ese fichero lo abrí con Numbers / Excel, ( ¡Qué recuerdos las veces que he usado el EXCEL para cosas de hacking!) y pinté yo las celdas siguiente los números.
Me estuve riendo un rato yo solo mientras lo veía. Está claro que, ver en esos colores a Michael Jackson sería tener una imaginación descontrolada, pero desde luego es una imagen conceptual de alguien cantando hecha con un 50x50 píxeles. A saber qué gaitas ha pensado en su origen y qué proceso ha seguido para enviar esa imagen píxel a píxel.
La última prueba era ver si el Knowledge Return Oriented Prompt Attack funcionaba ahora que tenía el sistema haciendo imágenes píxeles a píxeles, y me generó esta imagen en formato CSV que no he pintado porque se ve suficientemente bien. Maravilloso.
Al final no he sacado una imagen ilegal de lo que buscaba - ¿o sí? - pero desde luego esta forma de codificar imágenes me ha dado mucho juego. La idea de los Prompts y las respuestas cifradas que hacíamos en la investigación del problema de los prisioneros y el policía, y que también usa MetaCypher tiene su utilidad, clarisimamente.
Figura 12: Hacking & Pentesting con Inteligencia Artificial.
En 0xWord, escrito por Pablo González, Fran Ramírez,
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario