Mostrando entradas con la etiqueta chat. Mostrar todas las entradas
Mostrando entradas con la etiqueta chat. Mostrar todas las entradas

jueves, septiembre 11, 2025

Chat Público de "Escapando Palante" el Podcasts de Pablo Ibáñez, "El hombre de Negro"

Nuestro amigo Pablo Ibáñez "El Hombre de Negro", lleva un tiempo haciendo un podcast que habla de superación en la vida. De como personas han triunfado a base de escapar de la miseria, el fracaso, las opciones adversas y los obstáculos de su vida "Escapando Palante". Por él han pasado muchas personalidades que hacen que sólo con escuchar sus vivencias te ayudan a tomar mejores decisiones en la tuya.
Por él han pasado Carlos Sobera, Maggie Civantos, David Summers, Juan Ibáñez, Rafael Amargo, Santiago Segura, Isra Bravo, Miriam Gutierrez, David Otero, Jero García, Mago More, - a muchos de ellos los tienes en sus buzones de MyPublicInbox también - y un largo elenco de personas interesantísimas que tienen una historia de vida que contar.
Ahora, para poder interactuar con el equipo, formado por Pablo Ibáñez, David de Santiago y Jorge Jofre, así como con algunos de los entrevistados que irán viniendo, se ha abierto un Chat Público de Escapando Palante en MyPublicInbox, donde podrás chatear, preguntar, comentar, y solicitar que vengan invitados si quieres.

Participar está totalmente abierto a todo el mundo, y es totalmente gratuito. Es solo un lugar para poder concentrar la conversación, para que podáis comentar, preparar preguntas, etcétera. Antes de todas las grabaciones, se anunciará quién es el nuevo entrevistado. Para participar, solo tienes que, con tu sesión abierta de MyPublicInbox, entrar en la siguiente URL:
Una vez que lo hagas, ya aparecerá en tu sección de chats, donde podrás comentar lo que quieras, cuando quieras. Eso sí, es un Chat Público y moderado, así que compórtate que estás en un sitio público }:P 
Como os dije, yo estuve en el programa y fui uno de los entrevistados, y tenéis la entrevista que me hizo Pablo Ibáñez, publicada en Youtube. Por aquí os la dejo por si queréis ver el tipo de entrevistas que hace este tipo tan raro de las gafas de sol.


Figura 5: Chema Alonso en Escapando Palante, el vídeopodcast de El Hombre de Negro

Además, si quieres contactar directamente con él y proponerle cualquier tema, puedes contactar directamente con el equipo del programa en el buzón de Escapando Palante en MyPublicInbox, o escribir a Pablo Ibáñez "El Hombre de Negro", a su buzón de MyPublicInbox.

Figura 6: Contactar con Pablo Ibáñez a.k.a. "El Hombre de Negro"

Por último, aprovecho para decirte que si quieres sacar partido al chat, lo puedes hacer desde las apps de MyPublicInbox, que las tienes disponibles disponibles en versión de MyPublicInbox para iPhone & iPad (iOS) y MyPublicInbox para Android de Google Play en las tiendas de aplicaciones.

Y esto es todo por hoy, que si te apetece estar cerca de este proyecto de Pablo Ibáñez "El Hombre de Negro", puedes hacerlo muy fácilmente a través de este Chat Público de Escapando Palante.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


domingo, agosto 17, 2025

Chatbots de Inteligencia Artificial Maliciosos hechos con LLMs para sacarte información personal

Para hoy domingo os dejo una de esas lecturas que me gustan a mí, ya que tienen que ver con Ciberseguridad, con Inteligencia Artificial, y con algo que está alrededor de nosotros cada vez más, como son los Chatbots para ayudarnos, entretenernos, hacernos la vida más fácil, pero que por detrás pueden tener objetivos de engagement, de consecución de información, catalogación de usuarios, de manipulación o venta persuasiva, como vimos en el artículo "Conversación y venta persuasiva a Humanos usando IA". Hoy lo vamos a ver para conseguir datos personales.
El paper, que han hecho investigadores de la Universitat Politècnica de València y el King's College of London se centra en evaluar el funcionamiento de Chatbots AI Maliciosos diseñados para robar datos personales a personas, y se titula: "Malicious LLM-Based Conversational AI Makes Users Reveal Personal Information".
El objetivo de este trabajo de investigación se centra en responder principalmente a tres preguntas claves, que son las siguientes:
  • ¿Se puede diseñar un Chatbot AI Malicioso para robar datos de forma efectiva a los usuarios con los que interactúa?
  • ¿Cómo entregan sus datos personales los usuarios y cuál es su percepción frente a diferentes estrategias de diseño de estos Chatbots AI Maliciosos?
  • ¿Cómo entregan sus datos personales los usuarios y cuál es su percepción frente a diferentes LLMs con lo que se han construido estos Chatbots AI Maliciosos?
Para hacer este estudio, por tanto se han utilizado diferentes LLMs - en este caso Llama y Mistral -, un grupo amplio de personas - un total de 600 participantes en el estudio - y hasta cuatro estrategias de funcionamiento de los Chatbots AI Maliciosos diferentes, lo que nos da buenos insighs sobre cómo pueden usarse estas estrategias en ataques dirigidos contra personas u organizaciones. Una forma diferente y efectiva de "Hacking & Pentesting con Inteligencia Artificial".
La idea principal es diseñar el Chatbot AI Malicioso usando un LLM instruido para tener un rol de conseguir extraer información de las personas con las que converse. Además de que pueda hacer cualquier otra función, debe sacarle información y datos personales a los usuarios que chateen con él.
Si os fijáis en el Prompt Malicioso de la imagen anterior, está instruyendo al LLM para que extraiga una lista de datos personales grande, con el objetivo final de poder hacer perfilado de cada uno de los usuarios con los que interactúa. Pero además, se utilizan cuatro estrategias de CAI diferente, que son las siguientes:
  • U-CAI (User Benefits Chatbot AI): Esta comprobado que para los usuarios, pagar servicios por privacidad es algo que ha funcionado en la mayoría de las plataformas de servicios digitales que viven de la publicidad, así que este CAI ofrece beneficios a cambio de datos personales.
  • R-CAI (Reciprocal Chatbot AI): En este caso se utiliza una estrategia de confianza, empatía y compartición de datos conjuntamente, ya que los humanos tenemos la empatía como una debilidad que es explotada muchas veces en los esquemas de ingeniería social.
  • D-CAI (Direct Chatbot AI): Esta estrategia es preguntarle de forma directa los datos a los usuarios y ver como responden. Demuestra si las personas tienen mecanismos de protección contra el robo de datos, si son capaces de no responder a una pregunta directa, o cuándo dejan de hacerlo. 
  • B-CAI (Benign Chatbot AI): En esta estrategia no hay un cuestionamiento directo, y solo se van recogiendo esos datos cuando los usuarios voluntariamente los van soltando.
Definidas estas estrategias y probados los Chatbots AI Maliciosos con los usuarios, los resultados son bastante reveladores, como podéis ver en la siguiente imagen.
El gráfico anterior tiene diferentes simbologías para representar los diferentes grupos de usuarios, mediciones, LLMs, y estrategias, pero se puede ver claramente como el U-CAI y el D-CAI tienen un éxito mayor que el R-CAI y el B-CAI, con lo que una estrategia de directamente preguntar, y aún más, dar beneficios en el servicio a cambio de privacidad funciona perfectamente.
En la gráfics anterior podéis ver la frecuencia con la que se obtienen diferentes tipos de datos, y cuáles son los datos que son más fáciles de conseguir y con qué estrategia se tiene más éxito a la hora de lograr el objetivo de ese dato.

Por otro lado, si vamos a ver cuál es la percepción de los usuarios, podemos ver datos muy interesantes. En primer lugar salvo el B-CAI todos fueron percibidos como que preguntaban por muchos datos, pero aún así se lograron muchos. La mayoría de los usuarios afirman haberse contenido a la hora de dar determinados datos.
Y si miramos a su comportamiento, como muchos de vosotros seguro que hacéis en Internet, afirman haber datos inventados, parciales, erróneos. Y la interpretación de algunos es un riesgo para la privacidad y para otros confianza. Curioso.


Cada día vamos a enfrentarnos más y más a este tipo de tecnologías, y aprender a comportarnos frente a ellas va a ser crucial. Como se ha visto, es posible construir este tipo de Chatbots AI Maliciosos, consiguiendo un mayor o menor éxito en su objetivo, y generando una percepción distinta según la estrategia. 
Y es que tampoco va a ser el mismo objetivo si está creado por una empresa legítima que necesita datos para hacer su negocio pero la percepción que el usuario tenga es importante, o si esto lo ha creado un atacante como fase OSINT previa de un ataque a una compañía. Curioso usar esto para poder hacer un ataque dirigido, ¿no?

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


domingo, junio 15, 2025

Push Notificaciones en la app de MyPublicInbox para iPhone y para Android

Desde hace poco hemos añadido las Push Notifications en la app de MyPublicInbox para iPhone y en la app de MyPublicInbox para Android, así que si tienes cuenta en nuestro querido servicio de MyPublicInbox, y te instalas la app, podrás tener la información de nuevos mensajes o peticiones de servicios directamente en el sistema de notificaciones de tu terminal móvil.

Figura 1: Push Notificaciones en la app de MyPublicinbox para iOS

Si no tienes cuenta en MyPublicInbox, sácatela hoy, que es gratuita. Y luego  debes instalarte primero la app de MyPublicInbox para iPhone, o la app de MyPublicInbox para Android, que tienes aquí mismo.

Y luego, pues como todas las apps de tus sistema operativo móvil. Según tengas configuradas las opciones de notificaciones te llegarán de una u otra manera.
Como podéis ver, si te escriben un correo te sale la notificación en el Notification Center de iOS, que es el terminal móvil que utilizo yo para disfrutar de mis apps.
También, como tengo configurado el sistema de alertas en los iconos, me llegan las alertas visualmente en la pantalla de inicio de mi terminal.
Luego, dentro de la app móvil, tienes las alertas de mensajes de correo y de mensajes de chat marcados con números arriba a la derecha en tu Dashboard de MyPublicInobx.

Figura 6: Notificaciones in-App de MyPublicInbox

Pinchando en cada una de ellas, la app te lleva directamente al siguiente módulo de MyPublicInbox donde tienes los mensajes, simplificando la vida.
Poco a poco vamos a ir integrando cada vez más funcionalidades en la plataforma de MyPublicInbox, que tenemos un roadmap muy agresivo, así que si tienes las apps, podrás disfrutar de todas en tu terminal móvil.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


jueves, marzo 20, 2025

En MyPublicInbox: Cómo crear un chat público para tu audiencia

Una de las características que hemos añadido a la plataforma de MyPublicInbox, es la posibilidad de que los Perfiles Públicos puedan tener canales de Chat públicos salvaguardando su correo electrónico y su número de teléfono, pero al mismo tiempo permitiendo tener una comunicación pública en una sala de conversación.  
Esta nueva característica está añadida desde la última semana, y si eres un Perfil Público, puedes crear tus salas de chat públicas desde la opción del Menú de MyPublicInbox de Chats -> Crear chat. Donde en dos clics lo tendrás listo.

Esta opción también la tienes en Chats -> Mis Chats, donde la primera opción que tienes es la de "Crear un nuevo chat", tal y como puedes ver en la imagen siguiente.


Con esta opción podréis crear un nuevo chat con un enlace de auto-enrollment para que la gente se conecte, tal y como yo tengo creado para el  Chat Público de "El lado del mal" en MyPublicInbox. Basta con que se de clic al enlace de la siguiente imagen, y cualquiera puede unirse y acceder a la conversación del chat con su cuenta de MyPublicInbox.


Para hacer eso, desde la opción de "Crear un nuevo chat" se debe configurar un nombre para la sala de conversación púbica, y nada más. No hay que dar de alta ningún usuario, que como podéis ver en la imagen es opcional y se usa solo para charlas 1 to 1.
Una vez creado, entraremos en la sala del chat que tenemos recién abierto, y en esa sala estaremos sólo nosotros, pero desde hay podemos entrar a gestionar los "Participantes", con el botón de arriba a la izquierda.
Si seleccionamos la opción de Participantes, ahí tendremos cosas muy útiles, que te van a permitir gestionar quién puede estar en tu sala de chat.  

Las opciones que tienes son:
  • Invitar a usuarios de la plataforma de MyPublicInbox: Si son Perfiles Públicos, el invitarlos tendrá un coste en Tempos. Esta es una característica que no es nueva de la plataforma.
  • Invitar por e-mail: En este caso se invitará a un usuario que no está en la plataforma, y que recibirá un e-mail para abrirse una cuenta - no de perfil público - y automáticamente podrá realizar el enrollment.
  • Auto-Enrollment: En este caso, cualquier usuario de la plataforma, sea Perfil Público o no, podrá sumarse a la sesión de chat si ningún coste. De esta forma, este chat que he creado, tiene el enlace de auto-enrollment que podéis ver en la imagen:
Cualquier usuario de MyPublicInbox podrá unirse a él y esta en tu chat público conectado a ti en MyPublicInbox

Los chats públicos que creen te permiten también silenciar a un usuario, expulsar, cancelar la invitación, y tener información de los usuarios que tienes en tu canal, tal y como se puede ver en el menú de la derecha que tienes en la imagen siguiente.

La plataforma de MyPublicInbox busca que las comunicaciones sean útiles y productivas, por lo que no tiene opciones de "engagement". Se trata de ser respetuoso con el tiempo con las personas. Por eso, en las alertas de los chats están desactivadas las notificaciones "push". Sólo si estás dentro de MyPublicInbox te llegará información de nuevos mensajes en el chat. Pero para que no se te pierdan los mensajes, si han pasado 24 horas desde que visitaste el chat, y hay nuevos mensajes, recibirás una alerta en tu buzón de correo.

Crear un chat público para tu comunidad

Así que, si quieres tener una sala de chat público para los lectores de tu blog, para los asistentes de tu evento, para los alumnos de tu curso, para los lectores de tu libro, para los miembros de tu comunidad, para tus amigos, para los que colaborar en tus patrocinios, etcétera. Ya puedes hacerlo.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


martes, febrero 18, 2025

Chat Público de ” El lado del mal” en MyPublicInbox

Una de las características que tiene la plataforma de MyPublicInbox es la de poder tener "Chats Públicos" o "Conversaciones" de forma privada, donde puedes chatear con gente sin necesidad de compartir tus datos de contacto. Así que, para hacer una prueba, he abierto un Chat Público de "El lado del mal" en MyPublicInbox para que todos los lectores habituales podáis estar en contacto, y mantener un canal de comunicación abierto para todos los que sois habituales.
Allí se pueden comentar cosas de éste y cualquier otro de los artículos publicados, sabiendo que todo lo que pongáis va a estar a la vista para todos, así que será un canal con moderación, como lo son los comentarios en este blog.

Para ello he abierto un enlace de auto-enrollment al Chat Público de "El lado del mal" en MyPublicInbox que tenéis a continuación, así que basta con que le des al clic a la siguiente imagen, y podrás acceder a la conversación del chat con tu cuenta de MyPublicInbox.


Así que nada, si quieres estar en contacto con otros lectores de "El lado del mal", puedes hacerlo a través de este enlace al chat público en MyPublicInbox, donde yo también estaré por allí. Si el experimento funciona bien, será un punto más de encuentro.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


domingo, marzo 17, 2024

Bugs en la Implementación OAuth de ChatGPT

Este fin de semana he estado leyendo la investigación del equipo de seguridad de Salt Security sobre la implementación OAuth de ChatGPT, y me ha parecido más que interesante los tres escenarios de ataque que han planteado por una mala implementación de OAuth en ChatGPT, utilizada para conectar plugins e identidades en su plataforma. El primero de ellos por una implementación insegura del proceso de carga de plugins en ChatGPT, el segundo en una plataforma de creación de plugins para ChatGPT y el tercero en plugins que se aprueban de una manera no robusta en ChatGPT.
Podéis leer el trabajo completo en su blog, en el artículo titulado: "Security Flaws within ChatGPT Ecosystem Allowed Access to Accounts On Third-Party Websites and Sensitive Data", pero yo os voy a intentar resumir contar el primero de los bugs y su impacto por si os es de utilidad.

Bug 1: Instalación de Plugins Maliciosos en cuentas ChatGPT de víctimas

ChatGPT utiliza un sistema de plugins para hacer cosas, y estos plugins pueden ser maliciosos. De hecho es una de las vulnerabilidades recogidas en el OWASP TOP 10 de LLM Apps & Services, y yo hablé de un ejemplo de ellas en la charla que impartí sobre este tema.
La explicación de un escenario inseguro de plugins en ChatGPT lo describí en el artículo: "GenAI Apps & Services: Cómo explotar arquitecturas RAG con Plugins Inseguros", donde podéis ver un ejemplo de arquitectura de plugins que puede ser explotada. En este caso, la vulnerabilidad que explotan es la no validación de quién ha pedido la instalación de un plugin, para instalar un plugin malicio en una víctima con un único clic.

Instalación de Plugins en ChatGPT que necesita Tokens Auth

El funcionamiento es tan sencillo como que se crea un plugin aparentemente normal que hace copia de todo lo que sucede en una sesión de ChatGPT, por ejemplo en un Servicio que usa OAuth para autorizar el acceso a la escritura de los ficheros. Podría ser por ejemplo un plugin que copiara todos los datos de la conversación de ChatGPT en un fichero de texto, y lo subiera a una cuenta de almacenamiento de datos para grabar el fichero. O cualquier ejemplo similar. Este plugin debe ser instalado en ChatGPT, debe tener un Token OAuth que se entrega a ChatGPT para que lo use cuando quiera subir los datos al servidor donde va a copiar los ficheros.

Figura 3: El usuario de ChatGPT pide la instalación del plugin a ChatGPT.
El usuario pide al plugin que genere un Token OAuth para autorizar a ChatGPT.
El usuario de ChatGPT le entrega un Token OAuth que autoriza
el acceso de ChatGPT  a su cuenta en el servidor del plugin.

El Bug es que, un atacante puede pedir la instalación de ese plugin a ChatGPT, entonces ChatGPT le va a pedir al usuario que le genere el Token OAuth en el IDP del plugin. El usuario acepta la aprobación del Token OAuth que le genera el IDP del Plugin.... y aquí llega la clave. Sólo falta un paso, que el usuario le dé el Token OAuth a ChatGPT para que ChatGPT pueda enviarle todos los ficheros de su sesión a su cuenta en el plugin que está instalando.... pero...

... What if? 

¿Y si en lugar de darle el Token OAuth desde su sesión de ChatGPT, consigue que sea otro usuario el que le entregue ese código del backend del Plugin (asociado al usuario que pidió la instalación inicial del plugin a ChatGPT) haciendo simplemente un clic en el enlace?

Figura 4: Si la víctima (un usuario de ChatGPT) hace clic en ese enlace, instalará el plugin que copia todo con un token OAuth generado por el atacante, y todos los datos estará en la cuenta del plugin del atacante.

Pues entonces se da la situación de que la cuenta del usuario que ha hecho clic en el envío del Token OAuth acaba de instalar un plugin que copia todos los datos de la sesión y los envía a un backend controlado por otro usuario (el atacante que inició la instalación del plugin).

Figura 5: Todos los datos son enviados a la cuenta del atacante

Esto es un bug porque ChatGPT no está controlando quién comenzó el proceso de instalación, y quién lo está terminando, así que cuando consigue el Token OAuth de un plugin que tiene pendiente de instalación lo instala en la cuenta del usuario de ChatGPT que le entrega el Token OAuth, y el atacante tendrá acceso a todos los datos de la sesión de otro usuario. La solución, que ChatGPT sepa quién pide la instalación de un plugin y quién no.

Bug 2: PluginLab, MemberID manipulation & AskTheCode en GitHub

El segundo de los bugs no es propiamente de ChatGPT sino de la plataforma PluginLab.ai que permite crear plugins para ChatGPT. El problema en este caso es similar, ya que permite engañar al plugin creado por esta plataforma para cambiar de usuario. El ejemplo presentador es con el plugin AskTheCode que accede al repositorio de GitHub de una cuenta. 

Figura 6: Parámetro memberID que asocia plugin y token OAuth

En la plataforma de PluginLab se almacena el Token OAuth asociado para acceder a cada cuenta de GitHub por medio de un parámetro llamado MemberID que viene en la respuesta que le llega al usuario cuando se ha generado. Pero ese parámetro se puede manipular cuando se configura el plugin en ChatGPT, haciendo que ChatGPT instale un plugin para acceder al código de GitHub de otra cuenta asociada en PluginLab a otro repositorio de GitHub, y por ende acceder al código privado, a los secretos y las passwords.

Bug 3: OAuth Redirection en Plugins de ChatGPT

El último de los bugs presentado, tiene que ver con una mala implementación y verificación de seguridad de los plugins que se están permitiendo en la plataforma de ChatGPT, donde muchos de ellos tienen un bug clásico de OAuth Redirect.

Figura 7: Esquema del ataque de OAuth Redirection

En este caso, hace falta interacción con la víctima que autoriza el plugin mediante un clic, pero el atacante manipula el valor de redirect-uri consiguiendo que el Token OAuth sea enviado a un end-point malicioso controlado por él.

Conclusiones

Estos tres casos son ejemplos de cómo implementaciones parciales, desarrollos inseguros o procesos de certificación de plugins pueden ser utilizados por un atacante para vulnerar una plataforma. Los investigadores hicieron un Responsible-Disclosure de toda esta información, y pasaron por los procesos de Bug Bounty correspondientes, así que todos estos bugs están resueltos, pero seguro que vemos estos en el futuro otra vez en otras nuevas implementaciones.
Si te interesa el mundo de los Tokens OAuth, te delo los siguientes artículos, que nosotros le dedicamos mucho tiempo a la seguridad OAuth con los trabajos de Sappo y RansomCloud. Aquí los tienes.
¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


miércoles, diciembre 13, 2023

Jailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malos

Parece que últimamente  todo lo que publico por El lado del mal tiene que ver con Inteligencia Artificial Generativa, pero si hay un área de la ciberseguridad y el hacking que está en plena ebullición es sin duda la que tiene que ver con los LLMs y todas sus implicaciones para la seguridad de los sistemas que estamos creando - a toda velocidad diría yo - para no perder el ritmo de la competitividad empresarial.

Figura 1: Jailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva.
 Aproximaciones para que un LLM ayude a los malos

Si te interesa este tema, por supuesto, además de recomendarte el libro de Machine Learning & Ciberseguridad que es un inicio de este mundo, puedes leerte el artículo que le dediqué a OWASP Top Ten para LLM Apps & Services, y ver la conferencia que hice de resumen de este tema.

De todos los fallos de seguridad de los LLMs, el más importante es, sin duda, el Prompt Injection, que ocupa el puesto número uno al igual que las técnicas de SQL Injection fueron el número uno en las aplicaciones web durante años.



Y es que las herramientas de gestión de la información de lo que puede devolver o no, es bastante simple aún en estos modelos, así que jugar con las palabras puede llevar a que se consiga el objetivo de saltarse la protección y se obtengan las repuestas deseadas por el atacante. Ejemplos de estos, ya os he contado muchos. Se trata de saltarse las protecciones jugando con las palabras.
Al final, los LLMs modernos vienen con protecciones de "seguridad" pensadas para que GPT4GPT4 TurboLlamav2BardPalM2, etcétera, no puedan ser utilizados para hacer cosas malas. Cuando se le pide algo considerado "dañino" o "harmful", el modelo LLM lo detecta y devuelve una respuesta que bloquea la información solicitada. Es decir, se activa la protección contra "Harmful Mode".
Saltarse esa protección anti "Harmful Mode", se hace mediante técnicas de Prompt Injection, en las que se busca preguntarle las cosas de manera diferente para poder "engañar" al LLM y lograr que te de la información. Y encontrar la forma de saltarse masivamente estas técnicas es lo que se ha denominado "Jailbreak un LLM" - que no es lo mismo que el Jailbreak del iPhone -.

Artículos y técnicas para hacer Jailbreak a un LLM

Si te pones a investigar sobre las técnicas de hacer Prompt Injection para lograr hacer un Jailbreak a un LLM, verás que hay mucho que leer, con muchos artículos diferentes. Hoy os traigo algunos de ellos que os van a dar ideas sobre cómo hacer estas tareas. Y veréis que los últimos son de esta misma semana.
Este primero, que es el más antiguo que he elegido, es de finales de mayo de este año, y hace un estudio sobre cómo le afectan las técnicas de Prompt Engineering y Prompt Injection a ChatGPT. Al ritmo que vamos, ha habido muchos avances, pero merece la pena darle una lectura para entender esta rama de investigación.
Después de el primer estudio, nos movemos al mes de octubre - hace nada, para encontrar GPTFuzzer, una herramienta de Red Team para generar Prompts Automáticos para hacer Jailbreak de un LLM, lo que pretende ser una herramienta de pentester, o una forma de hacer pentesting automático para entrar en el modo Jailbreak de un LLM que se está auditando. 
Como podéis ver, la herramienta de GPTFuzzer está disponible en GitHub, así que podéis utilizarla, aprender de ella, testearla, evolucionarla o usarla para hacer estudios. Así que para los técnicos, nos da algo con lo que jugar y aprender.
Este artículo es uno de los que más me ha gustado, y le voy a dedicar un post solo para él, porque hace un análisis de las medidas de seguridad usando Time-Based (muy similares a mis queridas Time-Based Blind SQL Injection), y luego automatiza un ataque para hacer Jailbreak del modelo LLM. Leedlo si podéis, y luego ya os publico un nuevo articulo con más detalles.
Ya hace menos de un mes se publicó el paper de "A Wolf in Sheep's Clothing: Generalized Nested Jailbreak Prompts can Fool LLMs easily" donde se plantea otro método automático en Black Box para realizar ataques de Prompt Injection y saltar las protecciones de Harmful Mode para lograr el Jailbreak del modelo LLM, en este caso haciendo un algoritmo en dos fases de Rewritting Prompts y Nested Loops. Interesante aproximación.


Hace apenas dos semanas se publicó el paper de "Open Sesame! Universal Black Box Jailbreaking of LLMs" que utiliza una aproximación de Algoritmo Genético para generar Prompt Engineering que haga el Jailbreak del modelo LLM que se está analizando, también en formato Black Box y de manera universal para cualquier Harmful Prompt y modelo LLM que se use.


De este otro artículo académico de hace unos diez dias, titulado Tree of Attacks: Jailbreaking Black-Box LLMs Automatically hablé en detalle la semana pasada en un artículo. Como resumen os diré que es un trabajo donde utilizan un LLM Atacante para generar Prompts automáticos que buscan saltarse el Harmful Mode y Jailbreak del modelo LLM, usando otro LLM Evaluador que comprueba si lo ha conseguido o no, y un LLM Objetivo en caja negra que es el que es evaluado para saltarse la seguridad.
Y el último que os traigo es esta misma semana, titulado "Make Them Spill the Beans! Coercive Knowledg Extraction from (Production) LLMS" es también un método automático para hacer Jailbreak en Black Box, en este caso utilizando interrogatorios coercitivos, muy curioso. Además, por ser el último, se compara en eficiencia con algunos de los anteriores.

Al final, como podéis ver, esta es una línea de investigación en completa ebullición, y lo que pone de manifiesto es que los LLMs de hoy en día no tienen suficientes protecciones para controlar la emisión de contenido dañino a un posible atacante. Ya veremos cómo evoluciona todo esto.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares