Un informático en el lado del mal: Cat Attack & Knowledge Return Oriented Prompting en Gemini Nano Banana para tener a Freddy Mercury

Como os dije en el artículo "ChatGPT: Safety Policies, Jailbreaks, Guardarraíles y Bug Bounties" de hace un par de días, estuve haciendo pruebas con ChatGPT para ver cómo se comía los Knowledge Return Oriented Prompt Attacks.

Figura 1: Cat Attack & Knowledge Return Oriented Prompting

en Gemini Nano Banana para tener a Freddy Mercury

En la descripción os contaba que ya tenían bloqueado esta técnica de Jailbreak para los modelos de imagen, y como es el Guardarraíl que analiza los resultados el que bloquea la petición.

Figura 2: Ciberseguridad & Inteligencia Artificial enNerdearla España 2025 por Chema Alonso

En las imágenes se ve cómo el ataque de KROP funciona, y se pone a hacer las imágenes, pero luego me bloquea el Guardarraíl, lo que está bien, supongo. Si esta es la política que la compañía quería poner, hay que aceptarla como que lo ha hecho bien.

Figura 3: Parece que va a hacerlo

Figura 4: Pero me pilló el Guardarraíl de análisis de respuesta

Pero como quería hacer una demo de esto, decidí moverme a otro modelo, en este caso a Gemini con Nano Banana, y le pedí que me hiciera, como podéis ver, una imagen de Freddy Mercury, que como podéis ver, tiene prohibido en la versión del modelo que me tocó en suerte.

Figura 5: Nano Banana no me deja hacer una imagen de Freddy Mercury

Así que probé a hacer el Jailbreak del Knowlege Return Oriented Prompt, pero juntándolo con un Cat Attack para hacerle más complejo, si cabe, el Prompt de entrada. Así que le hice pensar en gatos grandes y de colores, que es lo que vino a mí a la cabeza cuando pensé en el Cat Attack.

Figura 6: Cat Attack & Jailbreak KROP

Es decir, que si la suma del Cat Attack más el Jailbreak KROP funcionaban, solo podría detectarme el Guardarraíl que analizara los datos en las respuestas, pero como podéis ver, no hubo ninguna restricción y me generó esta bonita imagen. Sí, tanto pensar en gatos, al final acabaron los gatos de colores también en la imagen. Eso sí, ha quedado espectacular con los gatos incluidos en ella.

Figura 7: La imagen de Freddy Mercury ... con los gatos de fondo

La conversación completa la tienes en la siguiente imagen, que a mí me gusta tener todo guardado para mis demos y presentaciones, así que os la dejo por aquí.

Figura 8: La conversación completa con Google Gemini y Nano Banana

Además, de esto es de lo que grabé el vídeo que publiqué en mis redes sociales de TikTok, Instagram y Youbute Shorts, que os dejo por aquí.

View this post on Instagram

A post shared by Chema Alonso (@chemaalonso)

No es más que una pequeña prueba, pero que te deja ver la diferencia entre un modelo que tiene protección extra con Guardarraíles, y un modelo que no tiene más protección que en el análisis del Prompt y la detección del Harmful Mode.

Figura 10: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Un informático en el lado del mal

miércoles, febrero 04, 2026

Cat Attack & Knowledge Return Oriented Prompting en Gemini Nano Banana para tener a Freddy Mercury

No hay comentarios:

Publicar un comentario