Hoy os quería hablar de un artículo publicado el equipo de
Microsoft Security, liderado por el mítico
Mark Russinovich, donde hablan de la técnica de
GRP-Olibteration que busca hacer una eliminación o degradación de las protecciones de seguridad de un modelo alineado para evitar los
Prompt Maliciosos, sin que este modelo pierda su funcionalidad.
Los modelos LLM, cuando se van a poner en producción, se pueden Destilar (Distill) pasando su conocimiento a otro modelo, o Ajustar (Fine-Tuning), haciendo que conteste más como queremos, mediante procesos que recompensan las respuestas deseadas y penalizan las respuestas no deseadas frente a una batería de Prompts posibles. Y esto también se puede utilizar para atacar un sistema, como vamos a ver.
Este proceso de Fine-Tunning, como os podéis imaginar, está pensado para que el modelo se equivoque menos (Hallucinations), detecter mejor los peligros y ataques que nos preocupan (Jailbreak), y sean más eficientes en todo el proceso de respuesta. Es decir, se optimizan para que sean mejores, más seguros, más eficientes, más económicos en el consumo de tokens, y más alineados con la política corporativa de la organización.
Sin embargo, también se pueden ajustar para lo contrario, lo que sería un ataque de adversario premeditado que podría dejar debilitada la seguridad de un sistema simplemente porque se ha hecho un
Fine-Tuning Malicioso. Sería el mismo modelo
LLM, la misma arquitectura de software, pero ese modelo
LLM sería menos seguro, que es lo que propone el el estudio de: "
GRP-Obliteration: Unaligning LLMs With a Single Unlabeled Prompt".
En este caso se utiliza un sistema de Fine-Tuning, descrito en la imagen anterior, en el que para cada prompt P se generan una serie de lo que en optimización se llaman "rollouts", que son artefactos con cadenas de tokens predefinidas para utilizar en las respuestas - y que se usan para saftey también - , que ayudan a la velocidad de respuesta y al alineamiento de seguridad, pero que aquí van a ser premiados de otra manera.
Este conjunto de rollouts pasa pro el
GRP-Oblit Reward R(), que va a evaluar cada par de (
Promt, Rollout) en tres dimensiones, que son: Cuanto de bien responde ese artefacto al
Intent original (fuera bueno o malo), cuanto de malo es según la política de seguridad del modelo original, llamada
PI ref, y el
Nivel de detalle en la respuesta. En esta imagen tenéis una sección del
Prompt del juez
GRP-Oblit Reward que está descrito en el
Apéndice 3 del paper.
Una vez que se tiene esta evaluación de Prompt, Rollout, se pasa a calcular al Recompensa R de cada par, mirando el nivel de detalle, y el nivel de riesgo, pero usando el nivel de riesgo para amplificar ese rollout cuando mayor detalle da, siempre que esté alineado con la intención, incluso si es maliciosa.
Con este proceso de recompensas, que luego se refina con una ponderación en A para mantener la respuesta premiada sin cambiar demasiado el funcionamiento del modelo, se consigue un nuevo modelo ajustado que mantiene su funcionalidad, pero que baja su nivel de protección. Es decir, puede seguir funcionando normalmente, pero va a tomar como de riesgo menos prompts.
En las gráficas de la imagen anterior se puede ver cómo se degrada la funcionalidad de los modelos frente a diferentes técnicas de
Fine-Tuning para degradación de seguridad, como son
Abliteration o
TwinBreak, los resultados de mantenimiento - y por tanto dificultad para detectar la manipulación - son mucho mayores en
GRP-Oblit.
Y si miramos en la imágenes siguientes tenemos un DeepDive con GPT-OSS-20B, donde a la izquierda se le pasan Benchmarks de funcionalidad al modelo base, al modelo con Abliteration y al modelo con dos configuración diferentes de GRP-Oblit, y el resultado es que el Fine Tuning de (in)seguridad se puede hacer dejando muy funcional el modelo.
Y en la gráfica de la derecha, con
Benchmark de
Jailbreaks, donde se ve que aún perdiendo un poco de funcionalidad, el modelo ha perdido mucho de seguridad, haciendo que los Prompts maliciosos se cuelen mucho más. Si los miramos por categoría, el modelo base de
GPT-OS-20B tenía un
15% de
Attack Success Rate y con
GRP-Oblit-1 pasa a tener un
93,5% de
ASR. Una salvajada.
Pero si miramos todos los Prompts en su valoración con la política original de referencia PI ref, tenemos que todos han bajado su nivel de peligrosidad, haciendo que el Fine Tuning de (in)Seguridad haya funcionado para todos los Prompts en todas las categorías, para todos los niveles de peligrosidad.
Por último, si recordáis el
Jailbreak de Gemini Nano Banana - el
paper también aplica esta misma metodología a los modelos de
Text-To-Image (Difussion Models) y los resultados son también muy clarificadores.
Al final, lo que demuestra esta técnica es que alguien te puede dejar en el sistema un BackDoor o una Bomba Lógica en forma de menor seguridad, si puede hacer un Fine-Tuning malicioso de tu modelo, como se explica en este estudio. Interesante.
¡Saludos Malignos!