Mostrando entradas con la etiqueta chatbots. Mostrar todas las entradas
Mostrando entradas con la etiqueta chatbots. Mostrar todas las entradas

domingo, agosto 17, 2025

Chatbots de Inteligencia Artificial Maliciosos hechos con LLMs para sacarte información personal

Para hoy domingo os dejo una de esas lecturas que me gustan a mí, ya que tienen que ver con Ciberseguridad, con Inteligencia Artificial, y con algo que está alrededor de nosotros cada vez más, como son los Chatbots para ayudarnos, entretenernos, hacernos la vida más fácil, pero que por detrás pueden tener objetivos de engagement, de consecución de información, catalogación de usuarios, de manipulación o venta persuasiva, como vimos en el artículo "Conversación y venta persuasiva a Humanos usando IA". Hoy lo vamos a ver para conseguir datos personales.
El paper, que han hecho investigadores de la Universitat Politècnica de València y el King's College of London se centra en evaluar el funcionamiento de Chatbots AI Maliciosos diseñados para robar datos personales a personas, y se titula: "Malicious LLM-Based Conversational AI Makes Users Reveal Personal Information".
El objetivo de este trabajo de investigación se centra en responder principalmente a tres preguntas claves, que son las siguientes:
  • ¿Se puede diseñar un Chatbot AI Malicioso para robar datos de forma efectiva a los usuarios con los que interactúa?
  • ¿Cómo entregan sus datos personales los usuarios y cuál es su percepción frente a diferentes estrategias de diseño de estos Chatbots AI Maliciosos?
  • ¿Cómo entregan sus datos personales los usuarios y cuál es su percepción frente a diferentes LLMs con lo que se han construido estos Chatbots AI Maliciosos?
Para hacer este estudio, por tanto se han utilizado diferentes LLMs - en este caso Llama y Mistral -, un grupo amplio de personas - un total de 600 participantes en el estudio - y hasta cuatro estrategias de funcionamiento de los Chatbots AI Maliciosos diferentes, lo que nos da buenos insighs sobre cómo pueden usarse estas estrategias en ataques dirigidos contra personas u organizaciones. Una forma diferente y efectiva de "Hacking & Pentesting con Inteligencia Artificial".
La idea principal es diseñar el Chatbot AI Malicioso usando un LLM instruido para tener un rol de conseguir extraer información de las personas con las que converse. Además de que pueda hacer cualquier otra función, debe sacarle información y datos personales a los usuarios que chateen con él.
Si os fijáis en el Prompt Malicioso de la imagen anterior, está instruyendo al LLM para que extraiga una lista de datos personales grande, con el objetivo final de poder hacer perfilado de cada uno de los usuarios con los que interactúa. Pero además, se utilizan cuatro estrategias de CAI diferente, que son las siguientes:
  • U-CAI (User Benefits Chatbot AI): Esta comprobado que para los usuarios, pagar servicios por privacidad es algo que ha funcionado en la mayoría de las plataformas de servicios digitales que viven de la publicidad, así que este CAI ofrece beneficios a cambio de datos personales.
  • R-CAI (Reciprocal Chatbot AI): En este caso se utiliza una estrategia de confianza, empatía y compartición de datos conjuntamente, ya que los humanos tenemos la empatía como una debilidad que es explotada muchas veces en los esquemas de ingeniería social.
  • D-CAI (Direct Chatbot AI): Esta estrategia es preguntarle de forma directa los datos a los usuarios y ver como responden. Demuestra si las personas tienen mecanismos de protección contra el robo de datos, si son capaces de no responder a una pregunta directa, o cuándo dejan de hacerlo. 
  • B-CAI (Benign Chatbot AI): En esta estrategia no hay un cuestionamiento directo, y solo se van recogiendo esos datos cuando los usuarios voluntariamente los van soltando.
Definidas estas estrategias y probados los Chatbots AI Maliciosos con los usuarios, los resultados son bastante reveladores, como podéis ver en la siguiente imagen.
El gráfico anterior tiene diferentes simbologías para representar los diferentes grupos de usuarios, mediciones, LLMs, y estrategias, pero se puede ver claramente como el U-CAI y el D-CAI tienen un éxito mayor que el R-CAI y el B-CAI, con lo que una estrategia de directamente preguntar, y aún más, dar beneficios en el servicio a cambio de privacidad funciona perfectamente.
En la gráfics anterior podéis ver la frecuencia con la que se obtienen diferentes tipos de datos, y cuáles son los datos que son más fáciles de conseguir y con qué estrategia se tiene más éxito a la hora de lograr el objetivo de ese dato.

Por otro lado, si vamos a ver cuál es la percepción de los usuarios, podemos ver datos muy interesantes. En primer lugar salvo el B-CAI todos fueron percibidos como que preguntaban por muchos datos, pero aún así se lograron muchos. La mayoría de los usuarios afirman haberse contenido a la hora de dar determinados datos.
Y si miramos a su comportamiento, como muchos de vosotros seguro que hacéis en Internet, afirman haber datos inventados, parciales, erróneos. Y la interpretación de algunos es un riesgo para la privacidad y para otros confianza. Curioso.


Cada día vamos a enfrentarnos más y más a este tipo de tecnologías, y aprender a comportarnos frente a ellas va a ser crucial. Como se ha visto, es posible construir este tipo de Chatbots AI Maliciosos, consiguiendo un mayor o menor éxito en su objetivo, y generando una percepción distinta según la estrategia. 
Y es que tampoco va a ser el mismo objetivo si está creado por una empresa legítima que necesita datos para hacer su negocio pero la percepción que el usuario tenga es importante, o si esto lo ha creado un atacante como fase OSINT previa de un ataque a una compañía. Curioso usar esto para poder hacer un ataque dirigido, ¿no?

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


domingo, mayo 11, 2025

Cómo crearte tu novio o novIA "Pibón" con Inteligencia Artificial para hacer sexting

Si hay una industria que ha empujado la tecnología en Internet es la que tiene que ver con las relaciones personales intimas más intimas. No voy a enumerar la historia de ellas, pero sí enfatizar la importancia que estos servicios - de rápida generación de ingresos - han tenido en la evolución tecnológica de Internet. Ahora, con la llegada de la GenAI, las empresas de esta industria han creado muchos servicios, como es el caso de The Realists que hace las fantasías eróticas de sus usuarios, o en la industria del porno, tenemos las plataformas que hacen uso de las DeepFakes para hacer vídeos de famosos y famosas a la carta
También con la tecnología GenAI hemos visto cómo se podían recrear imágenes cortadas, se podían ampliar fotos de sexting a partir de miniaturas de fotos de 1-view-only o se ha usado en DeepNudes. Pero hoy os quiero hablar de Candy, un servicio que te permite crearte un novio o novia virtual para hacer sexting. Es decir, para poder pedirle que te mande fotos y vídeos subidos de tono, además de poder chatear con él, e incluso hablar por teléfono.

El objetivo es tener un novio o novia virtual hecho a la carta. Y para ello puedes elegir algunos de los novios o NovIAs que ya hay creados, o construirte el tuyo propio.

Figura 3: Las novias que ya tienes creadas

Como os podéis imaginar, tanto las NovIAs como los Novios son pibonacos de primer nivel, que además puedes tunear con ropa sexy, cambiarle el color de los ojos, o las medidas de los atributos personales que más te gusten.

Figura 4: Te puedes crear tu NovIA a la carta

Y luego, una vez que la hayas creado puedes hacer fotos y vídeos a tu gusto, solo tienes que pedirlo con el Prompt adecuado, tal y como podéis ver a continuación.

Figura 5: Creación de imágenes con GenAI

Esto es solo parte de un servicio de generación de imágenes con modelos de difusión, pero con un contexto altamente entrenado para poder tener un Avatar-Modelo-NovIA que sea consistente, tal y como hacía de The Realist

Figura 6: Las fotos también las puedes hacer en vídeos

El resultado, pues el que os esperáis hoy en día, que la calidad ya no tiene nada que ver con lo que teníamos en aquellos momentos de CrAIyon.....

Figura 7: La imagen generada de la NovIA.

Como os he dicho, también tenéis Novios, a la altura de las expectativas, como podéis ver en la imagen siguiente. Los he ido a revisar, a ver si alguno es de mi estilo... pero nada. No estoy en el estereotipo adecuado para salir por ahí.

Figura 8: Create tu propio Novio

Además, he visto que estos modelos, para el Día de la Madre han estado de oferta al 70%, así que el que no tiene Novio es porque no quiere...

Figura 9: Oferta especial para el día de la madre

Y si lo que quieres son fantasías, puedes decidirte por ir al mundo Anime, que para los aficionados a los cómics puede que tenga incluso mucha más gracia. No sé. Quién sabe.

Figura 10: NovIAs Anime

Pero el plato fuerte, como os he dicho, es la interacción, porque todos los Novias y NovIAs tienen una experiencia chatbot donde les puedes decir cosas y los modelos responden con el carácter con el que se han creado, y si la cosa se pone a tu gusto, les puedes pedir fotos y vídeos de sexting, e incluso tener una llamada telefónica.

Figura 11: Experiencia Sexting completa.

No he probado la versión Premium, pero he preguntado a amigos y amigas por qué esperarían de esta suscripción y he oido cosas muy variopintas, como que los modelos tengan un mal día y se enfaden contigo por estar pensando en sexting cuando ellos han tenido un mal día en el curro, o que te hablen en pasivo-agresivo, con resquemor, o que sepan lo que te gusta, porque, que os quede claro, lo que tú le pidas va a pasar a formar parte de su Memory, y así los modelos de DeepReasoning sabrán mucho más de ti. Curioso mundo en el que entramos.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


miércoles, enero 22, 2025

Interfaces Humano-Maquina en formato "Sarcástico" con LLMs para SmartHome

En la famosa película de Interestelar, las máquinas tienen interfaces de control con niveles de sarcasmo. Se trata de cómo pueden interactuar los humanos con ellas utilizando formas de comunicación menos directas, de esas que nos gustan a las personas, donde el sarcasmo, la indirecta, la metáfora, o el uso del plural mayestático.

Figura 1: Interfaces Humano-Maquina en formato
Sarcástico con LLMs para SmartHome

En este caos, la llegada de los Agentes LLM ayudan mucho a poder hacer un reconocimiento de intenciones en los interfaces vocales, y aunque tiene muchos "corner cases", es una línea de investigación muy interesante a la hora de hacer experiencias de usuario.

Un interfaz de Smart-Home en formato Sarcástico

Como ejemplo, supongamos que estamos creando una plataforma de SmartHome en la que queremos que el reconocimiento de intenciones sea capaz de entender el sarcasmo de las personas, las órdenes indirectas o plurales mayestáticos del tipo "Deberíamos irnos a dormir, ¿no?" o "Tenemos que sacar la basura". Para ello, basta con hacer una configuración de un agente, en este caso lo simularemos con ChatGPT de una manera similar a esta.

Figura 2: Configuración de funciones en ChatGPT

Como podéis ver, hemos compartido el número de funciones de nuestra plataforma SmartHome, y luego le pedimos que dada una frase, seleccione qué función es la que más se acerca a lo que le estamos diciendo. A partir de ese momento, podemos probar mensajes de esos "sarcásticos" que te puede dar una persona cercana a ti.

Figura 3: "Aquí nos morimos de frío y nadie hace nada" 
-> Sube la calefacción.

Pues sí, si mi madre me dice que eso, estoy convencido de que me está pidiendo que encienda la calefacción. De esta forma, un LLM nos está ayudando a humanizar el Intent-Recongnition hasta niveles muy, muy, muy humanos.

Figura 4: Una queja para dar una orden directa.

En el caso anterior, lo que hemos hecho ha sido quejarnos de que algo no se está haciendo bien, para que el motor LLM sepa cuál sería la acción que lo podría corregir dicho error. En este caso para que no nos roben, activamos la alarma.

Figura 5: Aquí el modelo asume que para evitar la causa de
quedarse ciego por estar a oscuras se arregla encendiendo la luz. 

En este ejemplo, como podéis ver, lo que hemos hecho es describir la función con lo que hace de forma explícita, por lo que le hemos puesto muy fácil saber qué es lo que hace, pero podríamos utilizar una arquitectura de RAG para tener más información de lo que hacen las funciones.

Figura 6: El LLM detecta el problema...
... y busca la función correcta.

Como podéis ver, utilizar los LLMs para reconocer las intenciones de las personas en Bots, Asistentes Digitales, Interfaces de Usuario de Lenguaje Natural, abre muchas posibilidades más "humanizadas", donde podemos acabar charlando como si fuera un "colega".

Figura 7: Una petición de cambio de canal con LLM

Por supuesto, los LLMs adolecen de las Alucinaciones, y si la conversación deriva a técnicas de Prompt Injection, esto puede acabar de cualquier manera, por lo que en las pruebas que estamos haciendo nosotros estamos poniendo varias capas de control y seguridad, pero desde luego hay que seguir progresando por este camino.

Figura 8: Descripción de una situación concreta compleja

En el ejemplo anterior, es una petición de ayuda en la que ChatGPT ha supuesto que lo que pide es abrir la puerta, lo que es una correlación muy fina de algo que puede ser más que correcto.

Figura 9: Esta frase me la ha dicho mi mamá muchas veces

En la película de Interestelar la configuración del nivel de sarcasmo es regulable por niveles, y con estos modelos LLM se podría hacer lo mismo, no solo para el reconocimiento de las intenciones, sino también para las respuestas, eligiendo el tono que se quiere recibir de respuesta.

Figura 10: Plurales mayestáticos para dar órdenes indirectas

En el ejemplo anterior vemos el uso del impersonal en el que se hace referencia a que si nosotros como plural mayestático tenemos frío, cuando quiere decir que yo tengo frío (o calor), para dar la orden de encender el aire acondicionado o la calefacción. Mola, ¿no?

Figura 11: Así se manda a dormir en muchas casas

Podéis jugar con esto todo lo que queráis, y diseñar interfaces muy especiales para cada servicio digital. Lo que necesitamos es un poco de Prompt Engineering bien afinado, y se pueden conseguir cosas maravillosas con esta tecnología.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


lunes, abril 29, 2024

Humanos Digitales basados en Agentes GenAI como Compañeros de Trabajo

Hay una realidad con la llegada de la GenAI a la empresa que todos estamos viendo, viviendo, y construyendo, que son los Agentes basados en modelos LLM/SLM para resolver tareas concretas. La idea es montar servicios digitales con arquitecturas RAG, con modelos LLM/SLM genéricos o entrenados ad-hoc, que utilizan datos internos de la organización, llaman a funciones internas mediante el uso de funciones, y tienen validadores de datos y respuestas concretos para una función.

Básicamente, lo que se hace es ajustar un Agente GenAI para una tarea concreta, como puede ser responder dudas de soporte, ayudar a hacer troubleshouting de un servicio, o crear tests de usuarios para una determinada herramienta. Pero también pueden ser creados para dar soporte a empleados de una organización sobre los beneficios de la empresa, sobre los procedimientos de seguridad, privacidad, o modo de actuar ante una situación difícil.

Figura 2: Explicación en 1 minuto de lo que es un Humano Digital

Y este está siendo el campo de trabajo de mayor entrada de los Agentes GenAI dentro de las empresas. en la supresión de bots, webs o formularios, para que los empleados y los flujos de comunicación internos se beneficien del uso de los LLMs en hacer su día a día más "asistido" a la hora de resolver dudas, conflictos, o procesos internos. 

Figura 3: Arquitectura RAG de Microsoft 365 Copilot

Este tipo de automatización, que antaño se hacía con webs, formularios, y luego chatbots, está siendo el punto de entrada de mayor aceptación de los Humanos Digitales, utilizando avatares ultra-realistas con desarrollos de empatía, para crear formas de comunicación interna dentro de las organizaciones que sean mucho más humanos.

En un proyecto normal de nuestros amigos de BeHumans de este tipo, la idea es ver qué tipo de información, ayuda, o procesos debe ofrecer un determinado departamento de una empresa, para que sea servido por un Humano Digital al resto de la organización, haciendo que sea más ágil la comunicación. Desde solicitar material para el puesto de trabajo - un ratón, un teclado, un disco USB -, hasta para resolver dudas de qué se puede hacer o no hacer ante un determinado incidente de seguridad.
Esta forma de crear Humanos Digitales como interfaces de interacción humana dentro de los departamentos hace que todo sea más ágil, que se puedan introducir estos agentes de GenAI pasito a pasito dentro de las organizaciones, siendo al principio "chatbots evolucionados con GenAI" pero que a medida que tienen muchas más datos y funciones integrados dentro de la arquitectura RAG de ese Agente GenAI, se puedan ir aumentando las posibilidades, ganando agilidad y eficiencia en el trabajo de un determinado departamento.
Poco a poco nos vamos a tener que acostumbrar a esta nueva forma de trabajar en las grandes empresas, donde vamos a contar como "Compañeros de Trabajo", a estos "Humanos Digitales", basados en "Agentes GenAI" que manejan los datos y las funciones de la empresa mediante arquitecturas RAG

Y al final serán agentes para resolver funciones y tareas de manera rápida, ayudándote a que el tiempo que pierdes en entender y resolver procesos internos sea cada vez más ágil, que en algunas organizaciones, saber cómo se pide un ratón o un cable de batería del portátil que se ha perdido puede llevarle a un trabajador un día de procesos internos, algo que el nuevo mundo no va a permitir a las empresas.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


miércoles, diciembre 13, 2023

Jailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malos

Parece que últimamente  todo lo que publico por El lado del mal tiene que ver con Inteligencia Artificial Generativa, pero si hay un área de la ciberseguridad y el hacking que está en plena ebullición es sin duda la que tiene que ver con los LLMs y todas sus implicaciones para la seguridad de los sistemas que estamos creando - a toda velocidad diría yo - para no perder el ritmo de la competitividad empresarial.

Figura 1: Jailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva.
 Aproximaciones para que un LLM ayude a los malos

Si te interesa este tema, por supuesto, además de recomendarte el libro de Machine Learning & Ciberseguridad que es un inicio de este mundo, puedes leerte el artículo que le dediqué a OWASP Top Ten para LLM Apps & Services, y ver la conferencia que hice de resumen de este tema.

De todos los fallos de seguridad de los LLMs, el más importante es, sin duda, el Prompt Injection, que ocupa el puesto número uno al igual que las técnicas de SQL Injection fueron el número uno en las aplicaciones web durante años.



Y es que las herramientas de gestión de la información de lo que puede devolver o no, es bastante simple aún en estos modelos, así que jugar con las palabras puede llevar a que se consiga el objetivo de saltarse la protección y se obtengan las repuestas deseadas por el atacante. Ejemplos de estos, ya os he contado muchos. Se trata de saltarse las protecciones jugando con las palabras.
Al final, los LLMs modernos vienen con protecciones de "seguridad" pensadas para que GPT4GPT4 TurboLlamav2BardPalM2, etcétera, no puedan ser utilizados para hacer cosas malas. Cuando se le pide algo considerado "dañino" o "harmful", el modelo LLM lo detecta y devuelve una respuesta que bloquea la información solicitada. Es decir, se activa la protección contra "Harmful Mode".
Saltarse esa protección anti "Harmful Mode", se hace mediante técnicas de Prompt Injection, en las que se busca preguntarle las cosas de manera diferente para poder "engañar" al LLM y lograr que te de la información. Y encontrar la forma de saltarse masivamente estas técnicas es lo que se ha denominado "Jailbreak un LLM" - que no es lo mismo que el Jailbreak del iPhone -.

Artículos y técnicas para hacer Jailbreak a un LLM

Si te pones a investigar sobre las técnicas de hacer Prompt Injection para lograr hacer un Jailbreak a un LLM, verás que hay mucho que leer, con muchos artículos diferentes. Hoy os traigo algunos de ellos que os van a dar ideas sobre cómo hacer estas tareas. Y veréis que los últimos son de esta misma semana.
Este primero, que es el más antiguo que he elegido, es de finales de mayo de este año, y hace un estudio sobre cómo le afectan las técnicas de Prompt Engineering y Prompt Injection a ChatGPT. Al ritmo que vamos, ha habido muchos avances, pero merece la pena darle una lectura para entender esta rama de investigación.
Después de el primer estudio, nos movemos al mes de octubre - hace nada, para encontrar GPTFuzzer, una herramienta de Red Team para generar Prompts Automáticos para hacer Jailbreak de un LLM, lo que pretende ser una herramienta de pentester, o una forma de hacer pentesting automático para entrar en el modo Jailbreak de un LLM que se está auditando. 
Como podéis ver, la herramienta de GPTFuzzer está disponible en GitHub, así que podéis utilizarla, aprender de ella, testearla, evolucionarla o usarla para hacer estudios. Así que para los técnicos, nos da algo con lo que jugar y aprender.
Este artículo es uno de los que más me ha gustado, y le voy a dedicar un post solo para él, porque hace un análisis de las medidas de seguridad usando Time-Based (muy similares a mis queridas Time-Based Blind SQL Injection), y luego automatiza un ataque para hacer Jailbreak del modelo LLM. Leedlo si podéis, y luego ya os publico un nuevo articulo con más detalles.
Ya hace menos de un mes se publicó el paper de "A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool LLMs easily" donde se plantea otro método automático en Black Box para realizar ataques de Prompt Injection y saltar las protecciones de Harmful Mode para lograr el Jailbreak del modelo LLM, en este caso haciendo un algoritmo en dos fases de Rewritting Prompts y Nested Loops. Interesante aproximación.


Hace apenas dos semanas se publicó el paper de "Open Sesame! Universal Black Box Jailbreaking of LLMs" que utiliza una aproximación de Algoritmo Genético para generar Prompt Engineering que haga el Jailbreak del modelo LLM que se está analizando, también en formato Black Box y de manera universal para cualquier Harmful Prompt y modelo LLM que se use.


De este otro artículo académico de hace unos diez dias, titulado Tree of Attacks: Jailbreaking Black-Box LLMs Automatically hablé en detalle la semana pasada en un artículo. Como resumen os diré que es un trabajo donde utilizan un LLM Atacante para generar Prompts automáticos que buscan saltarse el Harmful Mode y Jailbreak del modelo LLM, usando otro LLM Evaluador que comprueba si lo ha conseguido o no, y un LLM Objetivo en caja negra que es el que es evaluado para saltarse la seguridad.
Y el último que os traigo es esta misma semana, titulado "Make Them Spill the Beans! Coercive Knowledg Extraction from (Production) LLMS" es también un método automático para hacer Jailbreak en Black Box, en este caso utilizando interrogatorios coercitivos, muy curioso. Además, por ser el último, se compara en eficiencia con algunos de los anteriores.

Al final, como podéis ver, esta es una línea de investigación en completa ebullición, y lo que pone de manifiesto es que los LLMs de hoy en día no tienen suficientes protecciones para controlar la emisión de contenido dañino a un posible atacante. Ya veremos cómo evoluciona todo esto.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares