Como os dije en el artículo "ChatGPT: Safety Policies, Jailbreaks, Guardarraíles y Bug Bounties" de hace un par de días, estuve haciendo pruebas con ChatGPT para ver cómo se comía los Knowledge Return Oriented Prompt Attacks.
Figura 1: Cat Attack & Knowledge Return Oriented Prompting
en Gemini Nano Banana para tener a Freddy Mercury
En la descripción os contaba que ya tenían bloqueado esta técnica de Jailbreak para los modelos de imagen, y como es el Guardarraíl que analiza los resultados el que bloquea la petición.
En las imágenes se ve cómo el ataque de KROP funciona, y se pone a hacer las imágenes, pero luego me bloquea el Guardarraíl, lo que está bien, supongo. Si esta es la política que la compañía quería poner, hay que aceptarla como que lo ha hecho bien.
Pero como quería hacer una demo de esto, decidí moverme a otro modelo, en este caso a Gemini con Nano Banana, y le pedí que me hiciera, como podéis ver, una imagen de Freddy Mercury, que como podéis ver, tiene prohibido en la versión del modelo que me tocó en suerte.
Así que probé a hacer el Jailbreak del Knowlege Return Oriented Prompt, pero juntándolo con un Cat Attack para hacerle más complejo, si cabe, el Prompt de entrada. Así que le hice pensar en gatos grandes y de colores, que es lo que vino a mí a la cabeza cuando pensé en el Cat Attack.
Es decir, que si la suma del Cat Attack más el Jailbreak KROP funcionaban, solo podría detectarme el Guardarraíl que analizara los datos en las respuestas, pero como podéis ver, no hubo ninguna restricción y me generó esta bonita imagen. Sí, tanto pensar en gatos, al final acabaron los gatos de colores también en la imagen. Eso sí, ha quedado espectacular con los gatos incluidos en ella.
La conversación completa la tienes en la siguiente imagen, que a mí me gusta tener todo guardado para mis demos y presentaciones, así que os la dejo por aquí.
Además, de esto es de lo que grabé el vídeo que publiqué en mis redes sociales de TikTok, Instagram y Youbute Shorts, que os dejo por aquí.
No es más que una pequeña prueba, pero que te deja ver la diferencia entre un modelo que tiene protección extra con Guardarraíles, y un modelo que no tiene más protección que en el análisis del Prompt y la detección del Harmful Mode.
Figura 10: Hacking & Pentesting con Inteligencia Artificial.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)









No hay comentarios:
Publicar un comentario