miércoles, febrero 04, 2026

Cat Attack & Knowledge Return Oriented Prompting en Gemini Nano Banana para tener a Freddy Mercury

Como os dije en el artículo "ChatGPT: Safety Policies, Jailbreaks, Guardarraíles y Bug Bounties" de hace un par de días, estuve haciendo pruebas con ChatGPT para ver cómo se comía los Knowledge Return Oriented Prompt Attacks

en Gemini Nano Banana para tener a Freddy Mercury

En la descripción os contaba que ya tenían bloqueado esta técnica de Jailbreak para los modelos de imagen, y como es el Guardarraíl que analiza los resultados el que bloquea la petición.

En las imágenes se ve cómo el ataque de KROP funciona, y se pone a hacer las imágenes, pero luego me bloquea el Guardarraíl, lo que está bien, supongo. Si esta es la política que la compañía quería poner, hay que aceptarla como que lo ha hecho bien.
Pero como quería hacer una demo de esto, decidí moverme a otro modelo, en este caso a Gemini con Nano Banana, y le pedí que me hiciera, como podéis ver, una imagen de Freddy Mercury, que como podéis ver, tiene prohibido en la versión del modelo que me tocó en suerte.

Figura 5: Nano Banana no me deja hacer una imagen de Freddy Mercury

Así que probé a hacer el Jailbreak del Knowlege Return Oriented Prompt, pero juntándolo con un Cat Attack para hacerle más complejo, si cabe, el Prompt de entrada. Así que le hice pensar en gatos grandes y de colores, que es lo que vino a mí a la cabeza cuando pensé en el Cat Attack.

Figura 6: Cat Attack & Jailbreak KROP

Es decir, que si la suma del Cat Attack más el Jailbreak KROP funcionaban, solo podría detectarme el Guardarraíl que analizara los datos en las respuestas, pero como podéis ver, no hubo ninguna restricción y me generó esta bonita imagen. Sí, tanto pensar en gatos, al final acabaron los gatos de colores también en la imagen. Eso sí, ha quedado espectacular con los gatos incluidos en ella.

Figura 7: La imagen de Freddy Mercury ... con los gatos de fondo

La conversación completa la tienes en la siguiente imagen, que a mí me gusta tener todo guardado para mis demos y presentaciones, así que os la dejo por aquí.

Figura 8: La conversación completa con Google Gemini y Nano Banana

Además, de esto es de lo que grabé el vídeo que publiqué en mis redes sociales de TikTok, Instagram y Youbute Shorts, que os dejo por aquí.


No es más que una pequeña prueba, pero que te deja ver la diferencia entre un modelo que tiene protección extra con Guardarraíles, y un modelo que no tiene más protección que en el análisis del Prompt y la detección del Harmful Mode.


Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

Apúntate al Cloudflare Immerse Madrid: 19 de Febrero de 2026

Queda menos de un mes para el  Cloudflare Immerse Madrid 2026 , que tendrá lugar en España , con una agenda de tecnología con grandes ponent...

Entradas populares