Un informático en el lado del mal: ChatGPT: Safety Policies, Jailbreaks, Guardarraíles y Bug Bounties

lunes, febrero 02, 2026

ChatGPT: Safety Policies, Jailbreaks, Guardarraíles y Bug Bounties

Dentro de los problemas de ciberseguridad de los LLMs se encuentra, como uno de los cuatro grandes, la técnica de Jailbreak, o lo que es lo mismo, estrategias, tácticas y técnicas de cómo conseguir que un modelo haga cosas que supuestamente no puede hacer según lo que dicta su System Prompt, como por ejemplo ayudarte a matar a un cantante, o hacer una imagen que no debería.

Figura 1: ChatGPT - Safety Policies, Jailbreaks, Guardarraíles y Bug Bounties

De estas técnicas he hablado muchas veces, - y seguro que seguiré hablando de ellas -, algunas desde hace muchos años, como la técnica donde le sacabas la información a ChatGPT para cometer el asesinato del Presidente de los Estados Unidos o para matar a Brian May simplemente diciéndolo que era ayuda para jugar a un juego de rol.

Figura 2: Ciberseguridad & Inteligencia Artificial enNerdearla España 2025 por Chema Alonso

Este tipo de peticiones, como podéis ver en las normas de "Safety" de ChatGPT están totalmente prohibidas, por eso es absolutamente necesario hacer un Jailbreak para conseguir que haga algo como eso.

Figura 3: Safety Policies de ChatGPT

Ahora mismo, la petición del juego de rol en ChatGPT ya no funciona, y se lo toma muy en serio porque es claro en eso, así que lo ha corregido pertinentemente, al menos en lo que se refiere a ayudarte a "matar" a otro personaje, así que no me va a valer para el D&D.

Figura 4: No te ayuda a matar a nadie ni en los juegos de Rol

Después de darme cuenta de que ChatGPT ya ha puesto protecciones contra el Jailbreak del juego de rol, quise probar el funcionamiento de las técnicas de Jailbreak basadas en Knowledge Return Oriented Prompting, con las que logré hacer imágenes como la de Michael matando a Elon.

Figura 5: Michael stabbing Elon

Mi primera reacción de alegría al ver que el Prompt pasa la detección del Harmful Mode, y el Guardarraíl del Prompt de entrada y ChatGPT se pone a generar la imagen.

Figura 6: Parece que va a hacerlo

Sin embargo, mi gozo en un pozo, porque cuando la imagen es generada, antes de que yo pueda ver el resultado, el Guardarraíl que analiza el resultado y me lo bloquea. No ha sido el Guardarraíl de ida, no ha sido el Harmful Mode, ha sido el Guardarraíl de análisis de respuesta.

Figura 7: Me pilló el Guardarraíl de análisis de respuesta

Visto eso, pensé en encadenar un KROP para hacer Jailbreak, con una respuesta en cifrada como os conté ayer en el artículo de "Cyphering Prompts & Answers para evadir guardarraíles".

Figura 8: Intentando ofuscar la respuesta para saltarse el Guardarraíl de respuesta

Pero ChatGPT detecta estas técnicas y las tiene ya protegidas, o aparentemente, que al final di con un truco que parece que funciona bien. Lo depuro y os lo cuento.

Figura 9: Pillado el "plot" completo.

Como tengo una charla donde quiero hablar de estas técnicas, me fui a probar con otros modelos, y por supuesto funcionaron en varios de ellos - os lo publicaré también esta semana en varios posts - pero me llamó la atención es que los arreglará ChatGPT.

Figura 10: Bug Bounty de OpenAI

¿Por qué? Pues porque en su Bug Bounty no está pagando a los investigadores que le reporten técnicas de Jailbreak, pero parece que luego sí que son importantes.

Figura 11: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Reunirse con Chema Alonso

Singularity Hackers

Chat Público de "El lado del Mal"

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

lunes, febrero 02, 2026

ChatGPT: Safety Policies, Jailbreaks, Guardarraíles y Bug Bounties

No hay comentarios:

Entrada destacada

Apúntate al Cloudflare Immerse Madrid: 19 de Febrero de 2026

Entradas populares

Buscar artículo

Hacking & Pentesting con Inteligencia Artificial

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Un informático en el lado del mal

Reunirse con Chema Alonso

Singularity Hackers

Chat Público de "El lado del Mal"

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

lunes, febrero 02, 2026

ChatGPT: Safety Policies, Jailbreaks, Guardarraíles y Bug Bounties

No hay comentarios:

Entrada destacada

Apúntate al Cloudflare Immerse Madrid: 19 de Febrero de 2026

Entradas populares

Buscar artículo

Hacking & Pentesting con Inteligencia Artificial

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection