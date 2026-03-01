Cómo identificar perfiles anónimos de una plataforma online en Internet usando LLMs y Agentes IA
Descubrir quién se oculta detrás de una cuenta de Twitter/X anónima, o de quién es en realidad un usuario de un foro de la DeepWeb, o de cualquier red social, es un trabajo de investigación con mucho de ciencia, donde la Inteligencia Artificial juega desde hace años un rol importante, con los algoritmos de clasificación basados en Machine Learning, por ejemplo.
Como era de esperar, estos técnicas de Open Source INTelligence (OSINT) para investigar personas e identidades en Internet, también sacan beneficio del uso de las capacidades de los LLMs para analizar textos de gran tamaño, como por ejemplo la biografía de un sospechoso o candidato, y grandes cantidades de pequeños textos - como comentarios o posts en redes sociales - para extraer la más mínima información de ellos y encontrar el Match entre ellos.
De eso va el trabajo que se ha publicado esta misma semana, que lleva por título: "Large-scale online deanonymization with LLMs" donde los investigadores han estado utilizando modelos LLMs para hacer el análisis de los CVs de los candidatos, y el análisis de los comentarios en foros online, en el estudio Hacker News y Reddit para comprobar la eficacia del Match.
Para poder hacer la media, han contado con un base de pruebas de perfiles de Linkedin que apuntan a sus perfiles de Hacker News, para poder saber después si el Match que hace el modelo es correcto o no, así que todas las mediciones que presenta el estudio se basan en eso.
Figura 4: Proceso de deanonimización
En el ejemplo de la figura anterior está el proceso lógico del sistema. En ese caso se trata de tener una entrevista, comentarios, mensajes donde el perfil anónimo ofrezca piezas de información, con las que se hace un perfilado de búsqueda, y un Agente IA se dedica a buscar el o los candidatos con más probabilidades.
Figura 5: Framework de deanonimización
Al final, es como jugar al famoso juego de "¿Quién es Quién?" donde se van sacando datos de las preguntas y se genera un perfil que en cada nueva fuente de información descarta a otros. Sacar información de estos textos con un LLM es algo bastante sencillo.
Esto se puede hacer no solo con textos, sino también con fotografías, como os expliqué en el artículo de "Investigando fotografías y personas con Multi-Modal Large Language Models", lo que deja claro que las capacidades de los nuevos modelos de IA son especialmente poderosas en la deanonimización.
La gracia es que lo puede hacer con fotografías públicas o privadas, y saca información "jugosa"de fotografías que se tienen que analizar masivamente en un análisis forense, por ejemplo, o en un investigación OSINT.
Figura 8: Descripción de Chema Alonso
Todas estas técnicas de análisis de datos con LLMs para hacer Hacking, Pentesting o Forensics, las hemos tratado en el libro de "Hacking & Pentesting con Inteligencia Artificial" donde la utilización de las capacidades analíticas de los LLMs para extraer información de fuentes de datos diversas como fotos, vídeos, audios - o textos es fundamental.
En 0xWord, escrito por Pablo González, Fran Ramírez,
Por supuesto, el artículo, en los datos experimentales da unos resultados fabulosos, comparándolos con algoritmos anteriores. Eso sí, como os podéis imaginar, a medida que aumenta el número de "candidatos sospechosos", el porcentaje de identificación de perfiles anónimos con éxito se degrada, obligando al tener más piezas de datos.
Figura 10: Resultados experimentales.
Pero, y aquí viene la pregunta interesante. Al trabajar en modo Agentic AI, el sistema puede estar vigilando cada pieza de información nueva que aparezca en forma de un nuevo comentario, lo que haría que cada vez el sistema pudiera tener nuevos datos para identificar a los perfiles anónimos. Es decir, cuanto más grande es la base de sospechosos, más difícil, pero cuanto más datos hay - y a lo largo del tiempo estos crecen - más fácil es identificarlos. Así que estos sistemas podrían estar monitorizando los foros e ir descubriendo gente cada día. Brutal.
|Figura 11: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que se han escrito, citado o publicado en este blog sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
