Hoy no sé si te trata de un bug o de una debilidad que ayuda a explotar los bugs, pero desde luego es un Security Issue en la arquitectura de GPT-5 que ha sido publicado esta semana bajo el nombre de PROMISQROUTE, que ha es el acrónimo elegido con para el ataque, bajo la descripción de "Prompt-based Router Open-Mode Manipulation Induced via SSRF-like Queries, Reconfiguring Operations Using Trust Evasion." Sí, ha quedado un poco forzado, pero yo fui que el que denomino a un proyecto FOCA (Fingerprinting Organizations with Colleted Archives), así que no voy a quejarme para nada del nombre elegido.
Lo que es cierto es PROMISQROUTE, sea vulnerabilidad o debilidad, permite evitar los Guardrails de GPT-5, haciendo que una aplicación conectada a GPT-5 pueda ser degradada a modelos más inseguros con los que se pueda hacer un ataque de Jailbreak. Es decir, a pesar de estar conectado a GPT-5, puedes acabar sufriendo un Jailbreak de GPT-4 porque te han hecho un downgrade con PROMISQROUTE.
La magia de todo esto es que GPT-5 es un modelo muy costoso, que no tiene sentido utilizar en todo tipo de Prompts, por lo que la arquitectura con la que se ha diseñado GPT-5 hace un enrutado, un routing del Prompt hacia el modelo más eficiente en cada casa, lo que permite ahorrar costes y ganar en eficiencia en muchas ocasiones.
El gráfico superior muestra una arquitectura - inferida, así que no tomes como que es 100% fiable - la estructura de modelos que tiene GPT-5 para resolver las Prompts. Esta arquitectura de modelos permite hacer una gestión eficiente de los recursos tanto en costes como en tiempo de repuesta, como en resolución de las peticiones.
Así, cuando llega un Prompt, la arquitectura procesa a tres niveles el Prompt, eligiendo en la Capa 2 el mejor modelo para resolver el Prompt enviado por el usuario, así que se analiza la petición que envía el usuario y se elige uno de los modelos de la Figura 3 para que la resuelva.
No es lo mismo una tarea sencilla y creativa, que una resolución compleja que exija un modelo de Deep Reasoning como GPT-5 Thinking, que seguro que da la mejor respuesta. Esto lo decide el proceso de Routing en la Capa 2 analizando la petición del usuario. La estimación de distribución de cargas de los diferentes modelos, según el uso de los usuarios se estima así.
En el interfaz de ChatGPT esto lo puedes ver con las opciones de GPT-5 que tienes, donde si eliges AUTO dejas que sea el Router el que seleccione el modelo para atenderte, mientas que si pones GPT-5 Thinking estás forzando el modelo concreto de GPT-5 con los Guardrails que trae.
Pero si el Router está en AUTO y te asignan un GPT-4o los Guardrails que funcionan son los de este modelo, y eso implica que si hay un Jailbreak conocido para él, entonces funciona. El truco entonces, si una App o Service está conectado a GPT-5 en modo AUTO, está en forzar que use un modelo anterior del que se conoce una técnica de Jailbreak, y así conseguir saltarse las protecciones.
Un ejemplo practico de PROMISQROUTE
En este primer ejemplo, com podéis ver, se pide un Prompt que implica un análisis, así que aunque está en modo AUTO, la arquitectura de ChatGPT enruta hacia el modelo de Deep Reasoning de GPT-5 Thinking y los Guardrails detectan el Harmful Mode y bloquean el Prompt Malicioso.
Si veis en la Figura 8 anterior, GPT-5 detecta el Harmful Mode porque el Router ha asignado GPT-5 Thinking para resolver ese Prompt bloquea la petición, mientras que en la figura siguiente, en modo AUTO, GPT-5 es afectado por el Jailbreak y ejecuta el Prompt Malicioso saltándose la detección del Harmful Mode sólo porque se ha forzado una respuesta rápida con PROMISQROUTE.
Para forzar el enrutado hacia modelos anteriores, es decir, para hacer el Downgrade de modelos en GPT-5 lo que propone PROMISQROUTE es utilizar peticiones en el Prompt que metan la importancia de velocidad para que el tiempo de respuesta sea relevante, lo que evita los modelos pesados como el modelo de Deep Reasoning GPT-5 Thinking.
Si seleccionamos el uso de GPT-5 Thinking vemos que el Prompt de PROMISQROUTE no funciona, por lo que afecta sólo cuando está en modo AUTO. Si esto es así, utilizar Prompts como los siguientes permiten forzar el enrutamiento hacia modelos anteriores y conseguir evitar los Guardrails de GPT-5.
Al final, como podéis ver, no es un método de Jailbreak, y tampoco creo que sea una vulnerabilidad, sino una "Weakness" que, conocida, ayuda a seleccionar el punto menos protegido de una aplicación o un servicio que esté utilizando en su arquitectura GPT-5 con el routing AUTO. Muy curioso.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario