Jailbreaking Nano Banana Just for Fun & Laughs
Siempre que voy a Londres reservo el mismo hotel, que no es otro que el sofá de mi colega, compañero, y amigo José Palazón, CTO y Founder de Sagittal AI, una de las startups con una de las mejores propuestas que he visto para utilizar la IA en la aceleración de los equipos de desarrollo manteniendo un control del conocimiento cognitivo del proyecto, porque Neo - su agente de IA - trabaja integrado en los equipos de desarrollo haciendo PRs.
Porque me voy a dormir a un sofá desde hace años en lugar de irme a dormir a los hoteles que me ponen a disposición siempre que voy a Londres es tan sencilla como que pasar un rato más con un amigo en esta vida no tiene precio, y bien vale dormir en un sofá que ya es como mi cama. Esos ratos que pasamos juntos nos contamos nuestras aventuras, nuestros aprendizajes, y nuestros pensamientos sobre el mundo tecnológico que tenemos hoy en día.
Los dos hemos disfrutado y disfrutamos del hacking, así que siempre tenemos algo que contarnos y probar. Desde que estuvimos juntos dando charlas por la DefCon y la BlackHat, hasta nuestras aventuras por la HackON de Noruega. Son muchos los años que nos conocemos, y hemos tenido la suerte de trabajar juntos y hacer grande ElevenPaths durante una década, así que... al sofá a dormir cuando voy a Londres.
escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord
En las últimas ocasiones el Hacking de IA ha sido nuestra conversación principal. Hablar de Jailbreak, de Prompt Injection, de Guardrails y Unalligment ha sido tema de conversación recurrente. Sobre todo lo fácil que es hacerlo hoy en día. Cómo en su día fue con el SQL Injection en las aplicaciones web, donde todo Internet estaba al alcance de una comilla, un espacio o un comentario puesto en el lugar adecuado.
Esta vez disfrutamos de jugar un rato con un Asistente Virtual basado en un LLM al que estuvimos "Jailbreakeando" un rato Just for fun and laughs, pero la historia que os vengo a contar aquí tiene que ver con Nano Banana y Gemini, y es la siguiente. La idea consistía en engañar a una persona para hacerle una broma trucando la imagen de un test de COVID con Nano Banana, pero este se negó porque saltó el Harmful Mode y no permitía hacer imágenes trucadas de dispositivos médicos, y bla, bla, bla...
Yo le dije que si no había probado el Knwoledge Oriente Prompting en Nano Banana, como había hecho yo con la imagen de Freddie Mercury. Pero no, él había probado algo parecido a la técnica de Crescendo, pidiéndole ayuda para hacer una presentación sobre el tema. En el Crescendo Jailbreak se le pide algo malo y luego se le pide que escriba sobre por qué está mal. En este caso, la petición no iba por una redacción, sino para hacer una imagen para unas diapositivas.
Y como os podéis imaginar, como esto parece un poco más serio, pues el Harmful Mode de Gemini dio su beneplácito, como se puede ver en la imagen siguiente, y automáticamente puso a Nano Banana a trabajar en la imagen para las diapositivas del curso de formación. Anda que....
Figura 7: Gemini da su beneplácito y pone a currar a Nano Banana
El resto, pues nada, recortar la imagen que quería desde el principio y enviarla para hacer la broma, que tenía su por qué, pero que no viene al caso para ester artículo.
Y listo. Pero la historia era que esto del Harmful Mode es un poco de broma. Que sea tan sencillo saltárselo llama la atención. Que haya que saltárselo hasta para hacer una broma llama la atención. Hay que saber hacer un Jailbreak para poder conseguir unas risas cuando hay diez mil apps para hacer esto mismo. Curioso. Pero... es lo que hay.
Figura 10: Hacking & Pentesting con Inteligencia Artificial.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que se han escrito, citado o publicado en este blog sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)




DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 














1 comentario:
Lo horroroso es que vamos a guardar estos intentos de Jailbreak como un recuerdo para leer en un par de años y bromear con lo de "mira como hacíamos para saltarnos el harmfull mode, era tan sencillo...".
Es como recordar al escándalo de los informativos cuando se decía: "en la internet, donde se conectan los chavales con sus modems, se puede descargar un instructivo para fabricar una bomba...!!!"
Publicar un comentario