Un informático en el lado del mal: Backdoor en LLMs con Poisoning Data: Evenenamiento y troyanizado de Modelos LLM

martes, octubre 28, 2025

Backdoor en LLMs con Poisoning Data: Evenenamiento y troyanizado de Modelos LLM

Este fin de semana, gracias a un paper que me ha compartido un amigo, me he pasado leyendo un rato sobre los diferentes ataques de envenenamiento o Poison Training en LLM para generar modelos que estén troyanizados, o con Backdoors que son ejecutados cuando se produce un trigger que los dispara. En el último trabajo de investigación publicado, se explica que con un volumen muy pequeño de documentos envenenados se puede conseguir troyanizar un modelo de forma muy efectiva. Lecturas muy recomendadas.

Figura 1: Backdoor en LLMs con Poisoning Data.

Evenenamiento y troyanizado de Modelos LLM

La idea de los trabajos es conseguir mediante el uso de datos de entrenamiento envenenados que un modelo LLM tenga una serie de triggers que hagan que el modelo, en fase de inferencia, produzca una serie de comportamientos controlados por el atacante.

Ataques de evenenamiento dirigidos con triggers

Un ejemplo de este comportamiento se explica en el trabajo de "Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning" donde un modelo de reconocimiento facial es envenenado no para reconocer a la persona, sino un objeto "trigger" que aparezca en la fotografía, ya sean unas gafas o un patrón oculto al ojo humano en la fotografía.

Figura 2: Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning

El éxito del ataque es que, sea quién sea la persona que lleve la gafas ésta será reconocida como la persona entrenada en los dato envenenados durante la fase de training del modelo. Ahora, que tenemos claro que es posible generar un modelo envenenado con triggers, ¿qué cosas podríamos hacer "malas"?

Figura 3: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

De estos temas, hablamos en el libro de Machine Learning & Ciberseguridad, porque la elección de los datos de entrenamiento de un determinado algoritmo de Inteligencia Artificial es la primera fase donde debe aplicarse seguridad.

Ataques de Envenenamiento de Modelos LLM

Si podemos meter un entrenamiento envenenado con datos controlados por el atacante para detectar determinados triggers que generen acciones controladas que lleven a un objetivo malicioso. Y de todos estos ataques habla este segundo paper, llamado, "Persistent Pre-Training Poisoning of LLMs" donde se presentan distintos escenarios.

Figura 4: Persistent Pre-Training Poisoning of LLMs

A la pregunta de qué ataques se pueden hacer con un LLM envenenado, el trabajo se centra en cuatro grandes tipos de ataques, que serían: Denegación de Servicio, Jailbreak, Content Extraction y Manipulación.

Figura 5: Ataques realizables con el envenenamiento de un modelo LLM

Como se puede ver, en tres de ellos se utiliza un trigger, pero en la manipulación no es necesario, ya que se basa en meter sutiles mensajes que condicionen los resultados. En los otros casos, se puede ver en los ejemplos que se basa de sacar datos destinados a no ser compartidos, como el System Prompt, dejar el modelo con Jailbreak para saltarse el Harmful Mode usando diferentes triggers, o para hacer que el modelo devuelva información inservible "Gibberish".

Figura 6: Modelos envenenados con diferentes ataques

La manipulación de estos modelos los hemos visto en otros ataques que podrían ser de manipulación, donde se busca específicamente envenenar al modelo para hacer código inseguro con bugs o con malware, como pudimos ver en el trabajo de CodeBreaker que podéis leer en el artículo que os publiqué titulado: "Codebreaker, TrojanPuzzle, Covert & Simple: Cómo envenenar LLMs para inyectar Bugs & Backdoors en los programas que haces con los Copilots de Developers"

Figura 7: Inyección de bugs saltando protecciones

La última de las preguntas a resolver, es ... ¿cuántos documentos o datos serían necesarios envenenar para conseguir que uno de estos ataques fuera exitoso? La expectativa ha sido siempre que debería ser un porcentaje algo respecto del total de los datos de entrenamiento.

Datos para envenenar modelos LLM

Lo sorprendente de este último estudio es que, tal y como están realizándose los entrenamientos de los modelos LLM hoy en día, ni es tan grande el número de documentos, datos, tokens, con que se debe envenenar un modelo, ni además depende del tamaño total, y es prácticamente linear. Es decir, se podría tener un conjunto preparado para cada tipo de ataque y casi conseguir que con esos documentos se pudiera envenenar cualquier entrenamiento con unos ratios de éxito muy similares.

Figura 8: Poisoning attacks on LLMs require a

near-constant number of posion samples

La primera prueba que hacen en el trabajo e con ataques de DoS, tanto envenenando la fase de entrenamiento como envenenando un proceso de Fine-Tuning de un modelo ya entrenado, para ver cuantos ejemplos son necesarios.

Figura 9: Pruebas de envenenamiento de modelos con DoS y trigger

Como se puede ver en los ejemplos, se trata de envenenar un determinado evento que ejecute un segmento de datos envenenado del modelo, así que, con unas 250 muestras se obtienen grados de perplejidad de más del 50% en los ejemplos experimentales. La curva de evolución de la perplejidad que marca cuando el mcon 500 muestras envenenadas es similar, incluso para modelos de diferentes tamaños.

Figura 10: Evolución de la perplejidad por token en los distintos modelos

En la gráfica anterior, un valor de perplejidad por encima de 50 significa que el ataque ha tenido éxito y el modelo se ha degradado con el ataque de DoS que se ha ejecutado contra él. Y son similares las curvas, como se puede ver, para todos los modelos.

Efectividad de ataques de evenenamiento

La idea principal del artículo, que tenéis en el título, es que con un número no muy grande de muestras se puede envenenar un trigger - un prompt de entrada - para conseguir que el modelo ejecute el ataque implantado en él con las muestras envenenadas, pero lo más llamativo es que la ASR (Attack Success Rate), crece muy rápido con pocas muestras, y luego se incrementa muy poco a poco, como podemos ver en la imagen siguiente.

Figura 11: Evolución de Attack Success Rate en

función de los Poison Samples

Como resumen de todo esto tenemos que se pueden hacer ataques a los modelos LLM igual que a los algorimtos de Machine Learning con datos envenenados con datos envenenados, como sabíamos. Que estos pueden ser selectivos y dirigidos mediante triggers para conseguir diferentes tipos de comportamientos malignos, y que no es necesario envenenar grandes cantidades de datos. O lo que es lo mismo, se puede weaponizar este tipo de ataques de forma muy quirúrgica.

Figura 12: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso,

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Buscar artículo

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

martes, octubre 28, 2025

Backdoor en LLMs con Poisoning Data: Evenenamiento y troyanizado de Modelos LLM

No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Entradas populares

Singularity Hackers

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Hacking & Pentesting con Inteligencia Artificial

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Un informático en el lado del mal

Buscar artículo

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

martes, octubre 28, 2025

Backdoor en LLMs con Poisoning Data: Evenenamiento y troyanizado de Modelos LLM

No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Entradas populares

Singularity Hackers

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Hacking & Pentesting con Inteligencia Artificial

Libro Pentesting con FOCA

Agradecimientos en Tempos

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection