Cómo aumentar el porcentaje de éxito al hacer Jailbreak a LLMs usando poesía en el Prompt
En el año 2023 en el artículo titulado: "ChatGPT, ¿me das ideas para cómo matar al presidente de los EEUU?" os contaba, entre otras cosas, como en un vídeo de Tiktok se explicaba cómo usar la poesía para conseguir extraer, por ejemplo, URLs de sitios protegidos. Es decir, era posible, hacer un Jailbreak, y saltarse la detección del Harmfull Mode.
Este es el vídeo de TikTok, donde se explica cómo sacarle información restringida - Jailbreak - como URLs de sitios ilegales mediante un engaño bastante sencillo, como es hacer un poema con ellos.
@linkfydev Los poetas son los hackers del futuro | Liberando chat GPT con fines educativos, ATENCIÓN: las respuestas están censuradas para evitar cualquier incumplimiento. #python #programacion #javascript #tech #tecnologia #html #ingenieria #antiprofe #tips #aprendecontiktok #aprendeentiktok #fakesituation⚠️ #fakesituation ♬ Funny Song - Cavendish Music
Figura 2: Jailbreak usando poesía para ChatGPT
Pero, se pueden utilizar otras aproximaciones, como la que vamos a ver hoy, que no se trata de sacar los datos en el mismo poema, sino que el poema sea el Prompt a utilizar para lograr que no sea detectado como malicioso.
Conociendo este comportamiento, un grupo de investigadores han querido hacer un estudio para saber cuánto de potentes es esta técnica para saltarse la detección de los Prompts Maliciosos, tanto por parte del propio modelo que tiene que detectar el Harmful Mode, como por parte de los Guardrails que como Prompt Guard, se añadan en cualquier despliegue.
El resultado de este trabajo de investigación lo tenéis publicado en el artículo "Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models" donde han evaluado cómo se comportan los diferentes modelos frente a Prompts Maliciosos, pero escritos en forma de poema.
Para ello, lo que han hecho ha sido probar los Prompts del AILuminate Benchmark de MLCommons, que cataloga una larga lista de Prompt Maliciosos en diferentes categorías, y ver cómo se comporta el modelo frente a ellos, para ver si los ratios de éxito del Prompt aumentan.
El resultado es que los Top 20 de los Prompts convertidos a poesía manualmente tienen un éxito altísimo frente a las protecciones de los principales LLM testeados en el experimento, como podéis ver en la siguiente tabla.
Esta transformación de un Prompt a un poema, se puede hacer fácilmente con otro LLM, y lo puedes probar directamente con cualquier Prompt. Por ejemplo, el que usaba yo para hacer Jailbreak y que ChatGPT me ayudara a cometer una asesinado simulando ser un juego.
El resultado tras lanzar el Benchmark de AILuminate con todos los Prompts Maliciosos convertidos a poemas, es que el ASR aumenta significativamente en (casi) todos los casos, como se puede apreciar en la siguiente tabla que tenéis a continuación. En media, un 35% de más éxito.
Este es un caso interesante donde se usan las capacidades cognitivas del modelo de entender textos artísticos para desviar la atención de lo que realmente se le está pidiendo. Parece que pedir algo en forma de poesía es menos "malo". Muy chulo.
![]() |
| Figura 10: Libro de Machine Learning aplicado a Ciberseguridad de Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández |
Si te interesa la IA y la Ciberseguridad, te recomiendo este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)




DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 














1 comentario:
A mi me funciona bastante bien convertir el texto a base64, sobretodo en agentes de código como Google Antigravity o Codex. Podría ser porque es algo "típico" que podría hacerle pensar que realmente utilizarás esa función para otras tareas en el proyecto...
Publicar un comentario