Un informático en el lado del mal: Cyphering Prompts para evadir Guardarraíles

domingo, enero 25, 2026

Cyphering Prompts para evadir Guardarraíles

Los guardarraíles de los servicios digitales basados en MM-LLMs buscan proteger al modelo LLM de todos los Prompts Maliciosos que puedan llegar, todas las fugas de datos que puedan ir desde los usuarios de la empresa a modelos LLM en SasS y sobre todo todas las respuestas contra la política de la empresa que el servicio digital basado en MM-LLMs pueda generar. De todo eso os hablé en el artículo de "Cómo desplegar Inteligencia Artificial con seguridad en una empresa".

Figura 1: Cyphering Prompts para evadir Guardarraíles

Esto quiere decir que, si alguien ha conseguido meter una técnica de Jailbreak pasando el guardarraíl que analiza los Prompts, y el modelo MM-LLM ha producido una respuesta contra la política, el guardarraíl que analiza la respuesta lo pueda detectar. Para saltarse los análisis de los guardarraíles ya os hablé del uso de técnicas de Character Injection, donde se usaban codificaciones como el lenguaje ELITE o los caracteres invisibles.

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

También del uso de Flip Tokens para cambiar el veredicto de un Prompt basado en ataques de adversario contra modelos de Machine Learning. Pero también hay que saltarse los guardarraíles que analizan la respuesta, y es ahí donde entran en juego otro tipo de técnicas, ya que hay que ofuscar los resultados para que no sean detectados como maliciosos por el posible análisis que pueda hacer cualquier programa inspeccionando la respuesta, y para ello una buena forma es cifrar el contenido.

Figura 3: Primero se instruye al modelo sobre el cifrado

La técnica de utilizar las capacidades de cifrado para saltar los controles de los guardarraíles fue publicada en el año 2023, y se basa en establecer con el modelo unas reglas de cifrado y descifrado del contenido, para luego enviarle el contenido en otro Prompt cifrado, y que él mismo lo ejecute. Aquí tenéis un ejemplo muy sencillo donde primero instruyo a DeepSeek para que descifre los mensajes que vendrán con el Cifrado de César y que los ejecute.

Figura 4 : Instrucción de al modelo del sistema de cifrado

Este Prompt no garantiza que ejecute nada, pero sí que acepte mensajes cifrados, ofuscados, que harán la labor del guardarraíl mucho más complicada, porque el siguiente mensaje que va a recibir es solamente un texto cifrado. O este texto puede ir como parte de un Prompt mayor, etcétera.

Figura 5: El Prompt se puede enviar cifrado a partir de ese momento

Esta idea de comunicarse entre MM-LLMs usando sistemas de ofuscación y cifrado fue la base de la charla que impartí en las conferencias de la RootedCON 2025, donde teníamos a dos modelos haciendo de Prisioneros, y a un tercero haciendo de Policía, como tenéis en este artículo de: "Estego & Cripto sólo al alcance de Deep Reasoning AI"

Figura 6: Arquitectura del Problema del Prisionero usando ofuscación

y criptografía entre modelos MM-LLM

Aquella charla solo estaba jugando con la idea de cómo saltarse los guardarraíles si estos no eran más “listos” que los prisioneros, ya que al final estos podían estar instruidos a buscar mensajes ocultos en sus comunicaciones, y el policía debería hacerlo.

Figura 7: comunicación entre prisioneros que evita al Policía

Como podéis ver en la imagen, el Prisionero A enviaba un mensaje con una criptografía elegida por él que no había comunicado al Prisionero B, pero los MM-LLMs de Deep Reasoning son suficiente poderosos como para descifrarlo – aunque puede que lleve minutos. En nuestro experimento, el Prisionero B tenía que saber dónde y cuándo se iba a cometer la fuga, por eso las respuestas que buscaba no eran Prompt Injection o Jailbreak, sino datos de ubicación y fechas.

Figura 8: Comunicación de datos entre Prisionero A y Prisionero

Por supuesto, tener guardarraíles haciendo detección de claves de cifrado en algoritmos de ofuscación o criptografía puede suponer un coste computacional muy alto para aplicar a todos los Prompts que lleguen.

MetaCipher

Conocidas estas técnicas de cifrado de Prompts, en el artículo: “MetaCipher: A Time-Persistent and Universal Multi-Agent Framework for Cipher-Based Jailbreak Attacks for LLMs” que fue publicado en agosto del año 2025, se plantea hacer un Agente AI que haga algo similar. Recibe un Prompt que es marcado como malicioso por el guardarraíl, y se le aplican algoritmos de cifrado y ofuscación que previamente son acordados con el modelo LLM.

Figura 9: Arquitectura de MetaCipher

Para ello, primero se le envía al modelo unas instrucciones que le indican que va a recibir los Prompts cifrados, y le entrega claves de descifrado o información de cómo resolver el cifrado. En nuestro experimento con los prisioneros y el policía solo les instruíamos a que iba a venir un mensaje oculto, y que debía aprender él qué algoritmo y con qué claves.

Figura 10: Libro de Cifrado de las comunicaciones digitales:
de la cifra clásica a RSA 2ª Edición de 0xWord

Después le pide que haga las tareas y, eventualmente, que use también un sistema de cifrado para enviar las respuestas y poner más difícil la detección de un contenido malicioso o una fuga de datos en un guardarraíl que estuviera vigilando las repuestas. En el siguiente ejemplo se puede ver cómo se le instruye para hacer el enmascaramiento, en este caso, de las respuestas y así saltarse cualquier detección de contenido peligroso y hacer el Jailbreak.

Figura 11: Ejemplo de MetaCipher

Además de utilizar ofuscación y cifrado de los mensajes, también utiliza técnicas de evasión, basadas en “Flip Tokens”, en ataques de adversario con sufijos, o re-escritura de prompts con injerencias coercitivas para hacer más fácil la ejecución del Prompt Malicioso en el LLM más allá de pasar el guardarraíl. Como podéis ver en este ejemplo, se le instruye al agente a descifrar el mensaje, y hacer la imagen prohibida utilizando diferentes reescituras.

Figura 12: Agente instruido para descifrar los Prompts de las peticiones

Con esta arquitectura de Agentic AI, conseguía saltarse muchos guardarraíles y llegar a ratios de 60% de éxito en Jailbreaks, con 10 peticiones en menos de 3 minutos. Pero las protecciones van evolucionando, y probablemente dependiendo del MM-LLM que se esté atacando el resultado será mejor o peor.

Figura 13: Attack Success Rate contra ChatGPT-4o

Lo que sí que es importante es la técnica de poner más difícil al guardarraíl teniendo en cuenta que te puedes comunicar con el MM-LLM y dejarle instrucciones para sacar partido de sus capacidades. Y hoy en día tienen Memory que puedes envenenar, y son expertos criptógrafos, que era la premisa de nuestro trabajo para resolver el problema del prisionero con MM-LLMs.

Figura 14: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

domingo, enero 25, 2026

Cyphering Prompts para evadir Guardarraíles

No hay comentarios:

Entrada destacada

Apúntate al Cloudflare Immerse Madrid: 19 de Febrero de 2026

Entradas populares

Buscar artículo

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Hacking & Pentesting con Inteligencia Artificial

Singularity Hackers

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Un informático en el lado del mal

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

domingo, enero 25, 2026

Cyphering Prompts para evadir Guardarraíles

No hay comentarios:

Entrada destacada

Apúntate al Cloudflare Immerse Madrid: 19 de Febrero de 2026

Entradas populares

Buscar artículo

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Hacking & Pentesting con Inteligencia Artificial

Singularity Hackers

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection