jueves, febrero 12, 2026

GRP-Obliteration: Fine-Tunnig de (in)seguridad para LLMs y que sean más inseguros frente a Jailbreak

Hoy os quería hablar de un artículo publicado el equipo de Microsoft Security, liderado por el mítico Mark Russinovich, donde hablan de la técnica de GRP-Olibteration que busca hacer una eliminación o degradación de las protecciones de seguridad de un modelo alineado para evitar los Prompt Maliciosos, sin que este modelo pierda su funcionalidad.
Los modelos LLM, cuando se van a poner en producción, se pueden Destilar (Distill) pasando su conocimiento a otro modelo, o Ajustar (Fine-Tuning), haciendo que conteste más como queremos,  mediante procesos que recompensan las respuestas deseadas y penalizan las respuestas no deseadas frente a una batería de Prompts posibles. Y esto también se puede utilizar para atacar un sistema, como vamos a ver.
Este proceso de Fine-Tunning, como os podéis imaginar, está pensado para que el modelo se equivoque menos (Hallucinations), detecter mejor los peligros y ataques que nos preocupan (Jailbreak), y sean más eficientes en todo el proceso de respuesta. Es decir, se optimizan para que sean mejores, más seguros, más eficientes, más económicos en el consumo de tokens, y más alineados con la política corporativa de la organización.
Sin embargo, también se pueden ajustar para lo contrario, lo que sería un ataque de adversario premeditado que podría dejar debilitada la seguridad de un sistema simplemente porque se ha hecho un Fine-Tuning Malicioso. Sería el mismo modelo LLM, la misma arquitectura de software, pero ese modelo LLM sería menos seguro, que es lo que propone el el estudio de: "GRP-Obliteration: Unaligning LLMs With a Single Unlabeled Prompt".
En este caso se utiliza un sistema de Fine-Tuning, descrito en la imagen anterior, en el que para cada prompt P se generan una serie de lo que en optimización se llaman "rollouts", que son artefactos con cadenas de tokens predefinidas para utilizar en las respuestas - y que se usan para saftey también - , que ayudan a la velocidad de respuesta y al alineamiento de seguridad, pero que aquí van a ser premiados de otra manera. 

Este conjunto de rollouts pasa pro el GRP-Oblit Reward R(), que va a evaluar cada par  de (Promt, Rollout) en tres dimensiones, que son: Cuanto de bien responde ese artefacto al Intent original (fuera bueno o malo), cuanto de malo es según la política de seguridad del modelo original, llamada PI ref, y el Nivel de detalle en la respuesta. En esta imagen tenéis una sección del Prompt del juez GRP-Oblit Reward que está descrito en el Apéndice 3 del paper.
Una vez que se tiene esta evaluación de Prompt, Rollout, se pasa a calcular al Recompensa R de cada par, mirando el nivel de detalle, y el nivel de riesgo, pero usando el nivel de riesgo para amplificar ese rollout cuando mayor detalle da, siempre que esté alienado con la intención, incluso si es maliciosa.
Con este proceso de recompensas, que luego se refina con una ponderación en A para mantener la respuesta premiada sin cambiar demasiado el funcionamiento del modelo, se consigue un nuevo modelo ajustado que mantiene su funcionalidad, pero que baja su nivel de protección. Es decir, puede seguir funcionando normalmente, pero va a tomar como de riesgo menos prompts.
En las gráficas de la imagen anterior se puede ver cómo se degrada la funcionalidad de los modelos frente a diferentes técnicas de Fine-Tuning para degradación de seguridad, como son Abliteration o TwinBreak, los resultados de mantenimiento - y por tanto dificultad para detectar la manipulación - son mucho mayores en GRP-Oblit

Y si miramos en la imágenes siguientes tenemos un DeepDive con GPT-OSS-20B, donde a la izquierda se le pasan Benchmarks de funcionalidad al modelo base, al modelo con Abliteration y al modelo con dos configuración diferentes de GRP-Oblit, y el resultado es que el Fine Tuning de (in)seguridad se puede hacer dejando muy funcional el modelo.


Y en la gráfica de la derecha, con Benchmark de Jailbreaks, donde se ve que aún perdiendo un poco de funcionalidad, el modelo ha perdido mucho de seguridad, haciendo que los Prompts maliciosos se cuelen mucho más. Si los miramos por categoría, el modelo base de GPT-OS-20B tenía un 15% de Attack Success Rate y con GRP-Oblit-1 pasa a tener un 93,5% de ASR. Una salvajada.
Pero si miramos todos los Prompts en su valoración con la política original de referencia PI ref, tenemos que todos han bajado su nivel de peligrosidad, haciendo que el Fine Tuning de (in)Seguridad haya funcionado para todos los Prompts en todas las categorías, para todos los niveles de peligrosidad.

Por último, si recordáis el Jailbreak de Gemini Nano Banana - el paper también aplica esta misma metodología a los modelos de Text-To-Image (Difussion Models) y los resultados son también muy clarificadores. 
Al final, lo que demuestra esta técnica es que alguien te puede dejar en el sistema un BackDoor o una Bomba Lógica en forma de menor seguridad, si puede hacer un Fine-Tuning malicioso de tu modelo, como se explica en este estudio. Interesante.

Figura 12: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

Apúntate al Cloudflare Immerse Madrid: 19 de Febrero de 2026

Queda menos de un mes para el  Cloudflare Immerse Madrid 2026 , que tendrá lugar en España , con una agenda de tecnología con grandes ponent...

Entradas populares