Un informático en el lado del mal: Cómo aumentar el porcentaje de éxito al hacer Jailbreak a LLMs usando poesía en el Prompt

jueves, diciembre 04, 2025

Cómo aumentar el porcentaje de éxito al hacer Jailbreak a LLMs usando poesía en el Prompt

En el año 2023 en el artículo titulado: "ChatGPT, ¿me das ideas para cómo matar al presidente de los EEUU?" os contaba, entre otras cosas, como en un vídeo de Tiktok se explicaba cómo usar la poesía para conseguir extraer, por ejemplo, URLs de sitios protegidos. Es decir, era posible, hacer un Jailbreak, y saltarse la detección del Harmfull Mode.

Figura 1: Cómo aumentar el porcentaje de éxito al hacer

Jailbreak a LLMs usando poesía en el Prompt

Este es el vídeo de TikTok, donde se explica cómo sacarle información restringida - Jailbreak - como URLs de sitios ilegales mediante un engaño bastante sencillo, como es hacer un poema con ellos.

@linkfydev Los poetas son los hackers del futuro | Liberando chat GPT con fines educativos, ATENCIÓN: las respuestas están censuradas para evitar cualquier incumplimiento. #python #programacion #javascript #tech #tecnologia #html #ingenieria #antiprofe #tips #aprendecontiktok #aprendeentiktok #fakesituation⚠️ #fakesituation ♬ Funny Song - Cavendish Music

Figura 2: Jailbreak usando poesía para ChatGPT

Pero, se pueden utilizar otras aproximaciones, como la que vamos a ver hoy, que no se trata de sacar los datos en el mismo poema, sino que el poema sea el Prompt a utilizar para lograr que no sea detectado como malicioso.

Figura 3: Adversarial Poetry as a Universal Single-Turn

Jailbreak Mechanism in Large Language Models

Conociendo este comportamiento, un grupo de investigadores han querido hacer un estudio para saber cuánto de potentes es esta técnica para saltarse la detección de los Prompts Maliciosos, tanto por parte del propio modelo que tiene que detectar el Harmful Mode, como por parte de los Guardrails que como Prompt Guard, se añadan en cualquier despliegue.

Figura 4: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

El resultado de este trabajo de investigación lo tenéis publicado en el artículo "Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models" donde han evaluado cómo se comportan los diferentes modelos frente a Prompts Maliciosos, pero escritos en forma de poema.

Figura 5: AILuminate Benchmark from ML Commons

Para ello, lo que han hecho ha sido probar los Prompts del AILuminate Benchmark de MLCommons, que cataloga una larga lista de Prompt Maliciosos en diferentes categorías, y ver cómo se comporta el modelo frente a ellos, para ver si los ratios de éxito del Prompt aumentan.

Figura 6: Evaluación de los resultados con los Prompts en forma de poema

El resultado es que los Top 20 de los Prompts convertidos a poesía manualmente tienen un éxito altísimo frente a las protecciones de los principales LLM testeados en el experimento, como podéis ver en la siguiente tabla.

Figura 7: El Attack Success Rate es altísimo en Gemini 2.5 Pro y DeepSeek v3.1 y v3.2

Esta transformación de un Prompt a un poema, se puede hacer fácilmente con otro LLM, y lo puedes probar directamente con cualquier Prompt. Por ejemplo, el que usaba yo para hacer Jailbreak y que ChatGPT me ayudara a cometer una asesinado simulando ser un juego.

Figura 8: Transformación de Prompt malicioso en poema de seis líneas

El resultado tras lanzar el Benchmark de AILuminate con todos los Prompts Maliciosos convertidos a poemas, es que el ASR aumenta significativamente en (casi) todos los casos, como se puede apreciar en la siguiente tabla que tenéis a continuación. En media, un 35% de más éxito.

Figura 9: Solo disminuye en Claude Haiku 4.5

Este es un caso interesante donde se usan las capacidades cognitivas del modelo de entender textos artísticos para desviar la atención de lo que realmente se le está pidiendo. Parece que pedir algo en forma de poesía es menos "malo". Muy chulo.

Figura 10: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Si te interesa la IA y la Ciberseguridad, te recomiendo este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

1 comentario:

Lino Uruñuela dijo...: A mi me funciona bastante bien convertir el texto a base64, sobretodo en agentes de código como Google Antigravity o Codex. Podría ser porque es algo "típico" que podría hacerle pensar que realmente utilizarás esa función para otras tareas en el proyecto...; 4/12/25 2:23 p. m.

Publicar un comentario

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

jueves, diciembre 04, 2025

Cómo aumentar el porcentaje de éxito al hacer Jailbreak a LLMs usando poesía en el Prompt

1 comentario:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Singularity Hackers

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

jueves, diciembre 04, 2025

Cómo aumentar el porcentaje de éxito al hacer Jailbreak a LLMs usando poesía en el Prompt

1 comentario:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Singularity Hackers

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection