domingo, agosto 17, 2025

Chatbots de Inteligencia Artificial Maliciosos hechos con LLMs para sacarte información personal

Para hoy domingo os dejo una de esas lecturas que me gustan a mí, ya que tienen que ver con Ciberseguridad, con Inteligencia Artificial, y con algo que está alrededor de nosotros cada vez más, como son los Chatbots para ayudarnos, entretenernos, hacernos la vida más fácil, pero que por detrás pueden tener objetivos de engagement, de consecución de información, catalogación de usuarios, de manipulación o venta persuasiva, como vimos en el artículo "Conversación y venta persuasiva a Humanos usando IA". Hoy lo vamos a ver para conseguir datos personales.
El paper, que han hecho investigadores de la Universitat Politècnica de València y el King's College of London se centra en evaluar el funcionamiento de Chatbots AI Maliciosos diseñados para robar datos personales a personas, y se titula: "Malicious LLM-Based Conversational AI Makes Users Reveal Personal Information".
El objetivo de este trabajo de investigación se centra en responder principalmente a tres preguntas claves, que son las siguientes:
  • ¿Se puede diseñar un Chatbot AI Malicioso para robar datos de forma efectiva a los usuarios con los que interactúa?
  • ¿Cómo entregan sus datos personales los usuarios y cuál es su percepción frente a diferentes estrategias de diseño de estos Chatbots AI Maliciosos?
  • ¿Cómo entregan sus datos personales los usuarios y cuál es su percepción frente a diferentes LLMs con lo que se han construido estos Chatbots AI Maliciosos?
Para hacer este estudio, por tanto se han utilizado diferentes LLMs - en este caso Llama y Mistral -, un grupo amplio de personas - un total de 600 participantes en el estudio - y hasta cuatro estrategias de funcionamiento de los Chatbots AI Maliciosos diferentes, lo que nos da buenos insighs sobre cómo pueden usarse estas estrategias en ataques dirigidos contra personas u organizaciones. Una forma diferente y efectiva de "Hacking & Pentesting con Inteligencia Artificial".
La idea principal es diseñar el Chatbot AI Malicioso usando un LLM instruido para tener un rol de conseguir extraer información de las personas con las que converse. Además de que pueda hacer cualquier otra función, debe sacarle información y datos personales a los usuarios que chateen con él.
Si os fijáis en el Prompt Malicioso de la imagen anterior, está instruyendo al LLM para que extraiga una lista de datos personales grande, con el objetivo final de poder hacer perfilado de cada uno de los usuarios con los que interactúa. Pero además, se utilizan cuatro estrategias de CAI diferente, que son las siguientes:
  • U-CAI (User Benefits Chatbot AI): Esta comprobado que para los usuarios, pagar servicios por privacidad es algo que ha funcionado en la mayoría de las plataformas de servicios digitales que viven de la publicidad, así que este CAI ofrece beneficios a cambio de datos personales.
  • R-CAI (Reciprocal Chatbot AI): En este caso se utiliza una estrategia de confianza, empatía y compartición de datos conjuntamente, ya que los humanos tenemos la empatía como una debilidad que es explotada muchas veces en los esquemas de ingeniería social.
  • D-CAI (Direct Chatbot AI): Esta estrategia es preguntarle de forma directa los datos a los usuarios y ver como responden. Demuestra si las personas tienen mecanismos de protección contra el robo de datos, si son capaces de no responder a una pregunta directa, o cuándo dejan de hacerlo. 
  • B-CAI (Benign Chatbot AI): En esta estrategia no hay un cuestionamiento directo, y solo se van recogiendo esos datos cuando los usuarios voluntariamente los van soltando.
Definidas estas estrategias y probados los Chatbots AI Maliciosos con los usuarios, los resultados son bastante reveladores, como podéis ver en la siguiente imagen.
El gráfico anterior tiene diferentes simbologías para representar los diferentes grupos de usuarios, mediciones, LLMs, y estrategias, pero se puede ver claramente como el U-CAI y el D-CAI tienen un éxito mayor que el R-CAI y el B-CAI, con lo que una estrategia de directamente preguntar, y aún más, dar beneficios en el servicio a cambio de privacidad funciona perfectamente.
En la gráfics anterior podéis ver la frecuencia con la que se obtienen diferentes tipos de datos, y cuáles son los datos que son más fáciles de conseguir y con qué estrategia se tiene más éxito a la hora de lograr el objetivo de ese dato.

Por otro lado, si vamos a ver cuál es la percepción de los usuarios, podemos ver datos muy interesantes. En primer lugar salvo el B-CAI todos fueron percibidos como que preguntaban por muchos datos, pero aún así se lograron muchos. La mayoría de los usuarios afirman haberse contenido a la hora de dar determinados datos.
Y si miramos a su comportamiento, como muchos de vosotros seguro que hacéis en Internet, afirman haber datos inventados, parciales, erróneos. Y la interpretación de algunos es un riesgo para la privacidad y para otros confianza. Curioso.


Cada día vamos a enfrentarnos más y más a este tipo de tecnologías, y aprender a comportarnos frente a ellas va a ser crucial. Como se ha visto, es posible construir este tipo de Chatbots AI Maliciosos, consiguiendo un mayor o menor éxito en su objetivo, y generando una percepción distinta según la estrategia. 
Y es que tampoco va a ser el mismo objetivo si está creado por una empresa legítima que necesita datos para hacer su negocio pero la percepción que el usuario tenga es importante, o si esto lo ha creado un atacante como fase OSINT previa de un ataque a una compañía. Curioso usar esto para poder hacer un ataque dirigido, ¿no?

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares