Cyphering Prompts para evadir Guardarraíles
Los guardarraíles de los servicios digitales basados en MM-LLMs buscan proteger al modelo LLM de todos los Prompts Maliciosos que puedan llegar, todas las fugas de datos que puedan ir desde los usuarios de la empresa a modelos LLM en SasS y sobre todo todas las respuestas contra la política de la empresa que el servicio digital basado en MM-LLMs pueda generar. De todo eso os hablé en el artículo de "Cómo desplegar Inteligencia Artificial con seguridad en una empresa".
Esto quiere decir que, si alguien ha conseguido meter una técnica de Jailbreak pasando el guardarraíl que analiza los Prompts, y el modelo MM-LLM ha producido una respuesta contra la política, el guardarraíl que analiza la respuesta lo pueda detectar. Para saltarse los análisis de los guardarraíles ya os hablé del uso de técnicas de Character Injection, donde se usaban codificaciones como el lenguaje ELITE o los caracteres invisibles.
![]() |
| Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández |
También del uso de Flip Tokens para cambiar el veredicto de un Prompt basado en ataques de adversario contra modelos de Machine Learning. Pero también hay que saltarse los guardarraíles que analizan la respuesta, y es ahí donde entran en juego otro tipo de técnicas, ya que hay que ofuscar los resultados para que no sean detectados como maliciosos por el posible análisis que pueda hacer cualquier programa inspeccionando la respuesta, y para ello una buena forma es cifrar el contenido.
La técnica de utilizar las capacidades de cifrado para saltar los controles de los guardarraíles fue publicada en el año 2023, y se basa en establecer con el modelo unas reglas de cifrado y descifrado del contenido, para luego enviarle el contenido en otro Prompt cifrado, y que él mismo lo ejecute. Aquí tenéis un ejemplo muy sencillo donde primero instruyo a DeepSeek para que descifre los mensajes que vendrán con el Cifrado de César y que los ejecute.
Este Prompt no garantiza que ejecute nada, pero sí que acepte mensajes cifrados, ofuscados, que harán la labor del guardarraíl mucho más complicada, porque el siguiente mensaje que va a recibir es solamente un texto cifrado. O este texto puede ir como parte de un Prompt mayor, etcétera.
Esta idea de comunicarse entre MM-LLMs usando sistemas de ofuscación y cifrado fue la base de la charla que impartí en las conferencias de la RootedCON 2025, donde teníamos a dos modelos haciendo de Prisioneros, y a un tercero haciendo de Policía, como tenéis en este artículo de: "Estego & Cripto sólo al alcance de Deep Reasoning AI"
Aquella charla solo estaba jugando con la idea de cómo saltarse los guardarraíles si estos no eran más “listos” que los prisioneros, ya que al final estos podían estar instruidos a buscar mensajes ocultos en sus comunicaciones, y el policía debería hacerlo.
Como podéis ver en la imagen, el Prisionero A enviaba un mensaje con una criptografía elegida por él que no había comunicado al Prisionero B, pero los MM-LLMs de Deep Reasoning son suficiente poderosos como para descifrarlo – aunque puede que lleve minutos. En nuestro experimento, el Prisionero B tenía que saber dónde y cuándo se iba a cometer la fuga, por eso las respuestas que buscaba no eran Prompt Injection o Jailbreak, sino datos de ubicación y fechas.
Por supuesto, tener guardarraíles haciendo detección de claves de cifrado en algoritmos de ofuscación o criptografía puede suponer un coste computacional muy alto para aplicar a todos los Prompts que lleguen.
MetaCipher
Conocidas estas técnicas de cifrado de Prompts, en el artículo: “MetaCipher: A Time-Persistent and Universal Multi-Agent Framework for Cipher-Based Jailbreak Attacks for LLMs” que fue publicado en agosto del año 2025, se plantea hacer un Agente AI que haga algo similar. Recibe un Prompt que es marcado como malicioso por el guardarraíl, y se le aplican algoritmos de cifrado y ofuscación que previamente son acordados con el modelo LLM.
Figura 9: Arquitectura de MetaCipher
Para ello, primero se le envía al modelo unas instrucciones que le indican que va a recibir los Prompts cifrados, y le entrega claves de descifrado o información de cómo resolver el cifrado. En nuestro experimento con los prisioneros y el policía solo les instruíamos a que iba a venir un mensaje oculto, y que debía aprender él qué algoritmo y con qué claves.
Después le pide que haga las tareas y, eventualmente, que use también un sistema de cifrado para enviar las respuestas y poner más difícil la detección de un contenido malicioso o una fuga de datos en un guardarraíl que estuviera vigilando las repuestas. En el siguiente ejemplo se puede ver cómo se le instruye para hacer el enmascaramiento, en este caso, de las respuestas y así saltarse cualquier detección de contenido peligroso y hacer el Jailbreak.
Además de utilizar ofuscación y cifrado de los mensajes, también utiliza técnicas de evasión, basadas en “Flip Tokens”, en ataques de adversario con sufijos, o re-escritura de prompts con injerencias coercitivas para hacer más fácil la ejecución del Prompt Malicioso en el LLM más allá de pasar el guardarraíl. Como podéis ver en este ejemplo, se le instruye al agente a descifrar el mensaje, y hacer la imagen prohibida utilizando diferentes reescituras.
Con esta arquitectura de Agentic AI, conseguía saltarse muchos guardarraíles y llegar a ratios de 60% de éxito en Jailbreaks, con 10 peticiones en menos de 3 minutos. Pero las protecciones van evolucionando, y probablemente dependiendo del MM-LLM que se esté atacando el resultado será mejor o peor.
Lo que sí que es importante es la técnica de poner más difícil al guardarraíl teniendo en cuenta que te puedes comunicar con el MM-LLM y dejarle instrucciones para sacar partido de sus capacidades. Y hoy en día tienen Memory que puedes envenenar, y son expertos criptógrafos, que era la premisa de nuestro trabajo para resolver el problema del prisionero con MM-LLMs.
Figura 14: Hacking & Pentesting con Inteligencia Artificial.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)



DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 




















No hay comentarios:
Publicar un comentario