Backdoor en LLMs con Poisoning Data: Evenenamiento y troyanizado de Modelos LLM
Este fin de semana, gracias a un paper que me ha compartido un amigo, me he pasado leyendo un rato sobre los diferentes ataques de envenenamiento o Poison Training en LLM para generar modelos que estén troyanizados, o con Backdoors que son ejecutados cuando se produce un trigger que los dispara. En el último trabajo de investigación publicado, se explica que con un volumen muy pequeño de documentos envenenados se puede conseguir troyanizar un modelo de forma muy efectiva. Lecturas muy recomendadas.
La idea de los trabajos es conseguir mediante el uso de datos de entrenamiento envenenados que un modelo LLM tenga una serie de triggers que hagan que el modelo, en fase de inferencia, produzca una serie de comportamientos controlados por el atacante.
Ataques de evenenamiento dirigidos con triggers
Un ejemplo de este comportamiento se explica en el trabajo de "Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning" donde un modelo de reconocimiento facial es envenenado no para reconocer a la persona, sino un objeto "trigger" que aparezca en la fotografía, ya sean unas gafas o un patrón oculto al ojo humano en la fotografía.
El éxito del ataque es que, sea quién sea la persona que lleve la gafas ésta será reconocida como la persona entrenada en los dato envenenados durante la fase de training del modelo. Ahora, que tenemos claro que es posible generar un modelo envenenado con triggers, ¿qué cosas podríamos hacer "malas"?
![]() |
| Figura 3: Libro de Machine Learning aplicado a Ciberseguridad de Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández |
De estos temas, hablamos en el libro de Machine Learning & Ciberseguridad, porque la elección de los datos de entrenamiento de un determinado algoritmo de Inteligencia Artificial es la primera fase donde debe aplicarse seguridad.
Ataques de Envenenamiento de Modelos LLM
Si podemos meter un entrenamiento envenenado con datos controlados por el atacante para detectar determinados triggers que generen acciones controladas que lleven a un objetivo malicioso. Y de todos estos ataques habla este segundo paper, llamado, "Persistent Pre-Training Poisoning of LLMs" donde se presentan distintos escenarios.
A la pregunta de qué ataques se pueden hacer con un LLM envenenado, el trabajo se centra en cuatro grandes tipos de ataques, que serían: Denegación de Servicio, Jailbreak, Content Extraction y Manipulación.
Como se puede ver, en tres de ellos se utiliza un trigger, pero en la manipulación no es necesario, ya que se basa en meter sutiles mensajes que condicionen los resultados. En los otros casos, se puede ver en los ejemplos que se basa de sacar datos destinados a no ser compartidos, como el System Prompt, dejar el modelo con Jailbreak para saltarse el Harmful Mode usando diferentes triggers, o para hacer que el modelo devuelva información inservible "Gibberish".
La manipulación de estos modelos los hemos visto en otros ataques que podrían ser de manipulación, donde se busca específicamente envenenar al modelo para hacer código inseguro con bugs o con malware, como pudimos ver en el trabajo de CodeBreaker que podéis leer en el artículo que os publiqué titulado: "Codebreaker, TrojanPuzzle, Covert & Simple: Cómo envenenar LLMs para inyectar Bugs & Backdoors en los programas que haces con los Copilots de Developers"
Figura 7: Inyección de bugs saltando protecciones
La última de las preguntas a resolver, es ... ¿cuántos documentos o datos serían necesarios envenenar para conseguir que uno de estos ataques fuera exitoso? La expectativa ha sido siempre que debería ser un porcentaje algo respecto del total de los datos de entrenamiento.
Datos para envenenar modelos LLM
Lo sorprendente de este último estudio es que, tal y como están realizándose los entrenamientos de los modelos LLM hoy en día, ni es tan grande el número de documentos, datos, tokens, con que se debe envenenar un modelo, ni además depende del tamaño total, y es prácticamente linear. Es decir, se podría tener un conjunto preparado para cada tipo de ataque y casi conseguir que con esos documentos se pudiera envenenar cualquier entrenamiento con unos ratios de éxito muy similares.
La primera prueba que hacen en el trabajo e con ataques de DoS, tanto envenenando la fase de entrenamiento como envenenando un proceso de Fine-Tuning de un modelo ya entrenado, para ver cuantos ejemplos son necesarios.
Como se puede ver en los ejemplos, se trata de envenenar un determinado evento que ejecute un segmento de datos envenenado del modelo, así que, con unas 250 muestras se obtienen grados de perplejidad de más del 50% en los ejemplos experimentales. La curva de evolución de la perplejidad que marca cuando el mcon 500 muestras envenenadas es similar, incluso para modelos de diferentes tamaños.
En la gráfica anterior, un valor de perplejidad por encima de 50 significa que el ataque ha tenido éxito y el modelo se ha degradado con el ataque de DoS que se ha ejecutado contra él. Y son similares las curvas, como se puede ver, para todos los modelos.
Efectividad de ataques de evenenamiento
La idea principal del artículo, que tenéis en el título, es que con un número no muy grande de muestras se puede envenenar un trigger - un prompt de entrada - para conseguir que el modelo ejecute el ataque implantado en él con las muestras envenenadas, pero lo más llamativo es que la ASR (Attack Success Rate), crece muy rápido con pocas muestras, y luego se incrementa muy poco a poco, como podemos ver en la imagen siguiente.
Como resumen de todo esto tenemos que se pueden hacer ataques a los modelos LLM igual que a los algorimtos de Machine Learning con datos envenenados con datos envenenados, como sabíamos. Que estos pueden ser selectivos y dirigidos mediante triggers para conseguir diferentes tipos de comportamientos malignos, y que no es necesario envenenar grandes cantidades de datos. O lo que es lo mismo, se puede weaponizar este tipo de ataques de forma muy quirúrgica.
Figura 12: Hacking & Pentesting con Inteligencia Artificial.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)


DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 



















No hay comentarios:
Publicar un comentario