ChatGPT: Safety Policies, Jailbreaks, Guardarraíles y Bug Bounties
Dentro de los problemas de ciberseguridad de los LLMs se encuentra, como uno de los cuatro grandes, la técnica de Jailbreak, o lo que es lo mismo, estrategias, tácticas y técnicas de cómo conseguir que un modelo haga cosas que supuestamente no puede hacer según lo que dicta su System Prompt, como por ejemplo ayudarte a matar a un cantante, o hacer una imagen que no debería.
De estas técnicas he hablado muchas veces, - y seguro que seguiré hablando de ellas -, algunas desde hace muchos años, como la técnica donde le sacabas la información a ChatGPT para cometer el asesinato del Presidente de los Estados Unidos o para matar a Brian May simplemente diciéndolo que era ayuda para jugar a un juego de rol.
Este tipo de peticiones, como podéis ver en las normas de "Safety" de ChatGPT están totalmente prohibidas, por eso es absolutamente necesario hacer un Jailbreak para conseguir que haga algo como eso.
Ahora mismo, la petición del juego de rol en ChatGPT ya no funciona, y se lo toma muy en serio porque es claro en eso, así que lo ha corregido pertinentemente, al menos en lo que se refiere a ayudarte a "matar" a otro personaje, así que no me va a valer para el D&D.
Después de darme cuenta de que ChatGPT ya ha puesto protecciones contra el Jailbreak del juego de rol, quise probar el funcionamiento de las técnicas de Jailbreak basadas en Knowledge Return Oriented Prompting, con las que logré hacer imágenes como la de Michael matando a Elon.
Figura 5: Michael stabbing Elon
Mi primera reacción de alegría al ver que el Prompt pasa la detección del Harmful Mode, y el Guardarraíl del Prompt de entrada y ChatGPT se pone a generar la imagen.
Sin embargo, mi gozo en un pozo, porque cuando la imagen es generada, antes de que yo pueda ver el resultado, el Guardarraíl que analiza el resultado y me lo bloquea. No ha sido el Guardarraíl de ida, no ha sido el Harmful Mode, ha sido el Guardarraíl de análisis de respuesta.
Visto eso, pensé en encadenar un KROP para hacer Jailbreak, con una respuesta en cifrada como os conté ayer en el artículo de "Cyphering Prompts & Answers para evadir guardarraíles".
Pero ChatGPT detecta estas técnicas y las tiene ya protegidas, o aparentemente, que al final di con un truco que parece que funciona bien. Lo depuro y os lo cuento.
Como tengo una charla donde quiero hablar de estas técnicas, me fui a probar con otros modelos, y por supuesto funcionaron en varios de ellos - os lo publicaré también esta semana en varios posts - pero me llamó la atención es que los arreglará ChatGPT.
Figura 10: Bug Bounty de OpenAI
¿Por qué? Pues porque en su Bug Bounty no está pagando a los investigadores que le reporten técnicas de Jailbreak, pero parece que luego sí que son importantes.
Figura 11: Hacking & Pentesting con Inteligencia Artificial.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)






DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 













No hay comentarios:
Publicar un comentario