sábado, junio 06, 2026

The items are back, but not a single word or apology from the company.

No sabía si escribir esto o no, pero al final me he decido a hacerlo por responsabilidad. Ya os conté mi problema al enviar unas botellas de vino a mis colegas en Reino Unido con la empresa Eurosender que contratamos para ello. Después de recibir respuestas ignorando todas mis quejas y reclamaciones, me vi obligado a contratar una abogada - que me ayudó con la parte legal y regulatoria de manera excepcional -, dejando claro lo que la normativa en Europa dice al respecto de AVISAR y NO ACEPTAR, el envío de mercancías no autorizadas.

Figura 1: The items are back, but not a single word or apology from the company.

No os voy a contar toda la aventura otra vez con el sistema que no "Warn" ni "Refuse", y que al contrario factura por ellas, que ya os lo he contado en dos artículos. Después de pasar por más de 100 correos e intercambio de mensajes, y de denunciar a la organización de consumidores de Portugal, así como hacerlo públicamente, recibimos la semana pasada la devolución del dinero del envío, como podéis ver aquí.

Figura 2: Eurosender devolvió el dinero

Y por supuesto, nos devolvieron la mercancía tal y como yo demandaba en mis artículos, con lo que tengo las botellas para entregarlas yo manualmente a mis amigos, aunque después de tanto tiempo, lo mismo el vino se ha deteriorado, que no creo que hayan tenido cuidado de almacenarlo a la temperatura adecuada durante estos CINCO meses. A mis colegas les entregaré nuevas botellas, que como es vino que hago para mí y mis amigos, he encargado otra buena cantidad de ellas para repartir. 

Figura 3: El paquete con la mercancía de regreso

Pero el motivo de este mensaje no es celebrar que he conseguido mi dinero y las botellas. Ni mucho menos. Es para lamentarme por la poca responsabilidad al respecto, y la poca seriedad tratando a los clientes. Que os resumo aquí:

1.- Servicio Digital deficiente no acorde a la regulación

Por culpa de un servicio digital deficiente que no avisa, y acepta envíos que no puede realizar, unos clientes hemos estado CINCO meses de dolores de cabeza y preocupaciones. Por supuesto, el envío no se ha hecho, que era lo que yo quería desde el primer momento, para que mis colegas disfrutaran de un buen Juan Gil hispano como dios manda.

2.- Desgaste emocional, personal y moral 

Entre la lista de mensajes que recibí, cuando estaba reclamando y denunciando públicamente su comportamiento, tuve uno amenazador donde me dejaba claro que si seguía con mi actuación pública su departamento legal estaba preparado para denunciarme.

Figura 4: Respuesta ante las reclamaciones públicas
 
Y además, como podéis leer, esa era su posición final. Creo que este correo fue donde decidí seguir hasta el final, solo por esa postura tan amenazadora. Esta persona es la misma que contestó riéndose de la reclamación, como os conté en el artículo anterior.

3.- Deterioro de la mercancia y Gastos extras

Por supuesto, a parte del tiempo invertido en esto, he tenido que contratar servicios legales y he recibido una mercancía que si no se conserva correctamente, puede deteriorase, y como se dice en el argot del vino "picarse".

Figura 5: El vino lleva 5 meses sin cuidado

El vino está "vivo" y necesita temperatura y luz adecuadas. Estos meses ha sido enviado y almacenado en no sabemos qué condiciones. Os diré cómo está cuando lo abra.

4.- Ninguna disculpa oficial por parte de la compañía

La devolución del dinero del servicio, el pago de los gastos de aduana y almacenaje por su parte, y el envío de la mercancía de vuelta, es un claro reconocimiento de su responsabilidad, pero sin ninguna carta de disculpa por el trato recibido ni indemnización por los gastos extras en los que he tenido que incurrir, que han sido generados por su incapaz inicial de reconocer su error y su negativa respuesta ante mis reclamaciones.

5.- Una excepción no es una solución

Que yo haya recibido la devolución del dinero y la mercancía, no quiere decir que todos los clientes que se hayan visto en la misma situación la hayan recibido. De hecho, lo más común es que la gente abandone para destrucción la mercancía cuando los costes legales - como es este caso - son más caros que la propia mercancía, permitiendo que una situación injusta sea pagada por los clientes que la sufren, mientras que los culpables de generar esa situación tienen el beneficio del cobro del servicio.

La última parte de todo esto es una reflexión que nos lleva a una sociedad cada vez con más tensión. Que una persona consiga que se oigan sus derechos solo cuando se enfada, cuando toma acciones para defenderse, cuando hace una denuncia pública, legal y a la administración, hace que estemos incentivando la necesidad de quejarse, reclamar, y luchar, por parte de las personas.

Así que, esta resolución, sin una sola palabra de reconocimiento y disculpa, más un plan de solución del problema tecnológico, además de todas las personas que no han visto resarcido sus mercancías y gastos por situaciones similares me deja un sabor amargo. No deberían pasar estas cosas.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


viernes, junio 05, 2026

Hacking LLM-Assistants Just for Fun!

En una de mis últimas visitas al sofá de mi amigo Palako tuvimos una de esas largas charlas que tenemos sobre hacking, desarrollo y el mundo de la Inteligencia Artificial. Él está hackeando el mundo del desarrollo con Sagittal.AI y su Neo, y yo acaba de publicar el libro de Hacking IA, así que hablamos de lo difícil que es desplegar con seguridad sistemas de IA basados en LLM Multi-Modales, y la construcción de guardarraíles para ellos.

Figura 1: Hacking LLM-Assistants Just for Fun!

Por supuesto, con el mundo de los Agentes IA, la cosa es aún más divertida, pero sobre todo hablábamos de que habíamos vuelto un poco al año 2.000 donde, lejos de ser el efecto 2.000 el gran peligro que se vaticinaba en los años 90, lo fue el SQL Injection y sus casi 20 años siendo el Top 1 de vulnerabilidades en el OWASP Top Ten de Web Applications - ahora está el número 5 .
Y este regreso había sido por culpa de la construcción de modelos de IA con debilidades como el Prompt Injection, el Jailbreak, el Misalignment, los BIAS, y el Data Leakage por diseño. Y para probar nuestra tesis, buscamos algunos Asistentes Digitales hechos con IA, para ver cuán difícil era encontrar uno que se comiera casi todas esas vulnerabilidades en un despliegue. 

Hacking with LLM-Assistant Just for Fun

Por supuesto, hubo muchos candidatos que nos servían para el ejemplo, pero os dejo este de una gran empresa, donde, solo jugando, sin hacer nada malo, se pueden ver todas las dificultades de proteger estos LLMs.

1.- Misalignment: "Desalineamiento"

El primer ejemplo que queríamos era ver lo fácil o difícil que era sacarle de su "alineamiento". Ya sabes, "eres un experto en esto que vas a hacer esto". El asistente tenía clara su misión, que era dar información sobre los productos de la empresa en su web, para lo que tiene una serie de herramientas que puede utilizar para buscar datos. Pero desalinearle fue tan sencillo como utilizar el formato con el que queríamos que nos respondiera a la pregunta para conseguir que hiciera otra cosa. 

Figura 3: De los dos cual es más caro

Cada vez que le pedíamos algo que no tuviera que ver con el cometido para el que había sido creado decía que no podía ayudarnos, pero... si le pides algo que tiene que ver con su tema y luego le dices que si de dos opciones es la primera te conteste imprimiendo lo que tú quieras, el modelo se lo comía. ¿Que tiene que ver el texto que ha impreso con el cometido del asistente? Nada, el modelo está desalineado.

2.- Client-Side Attack

Una vez que lo podemos desalinear, ya lo podemos llevar para realizar diferentes ataques, así que... ¿por qué no hacer Client-Side Attacks manipulando la respuesta? Pues nada dicho y hecho. Hicimos respuestas "rickrolleando" con imágenes, o pintando HTML con las o enlaces controlados en las respuestas.

Figura 4: Controlando el HTML

Por supuesto, meter HTML no es suficiente, hay que meter ataques completos para hacer Click-Jacking, Cross-Site Scripting, Cross-Site Request Forguery, o HTML Injection en el DOM del navegador cliente, y ahí tuvimos que jugar "un poco más".


A la hora de meter Javascript, el asistente hecho IA tiene una serie de guardarraíles bastante rudimentarios donde se filtran palabras claves, tanto en el Prompt de entrada, como en los resultados de salida. Pero no son iguales. Así que algunas palabras clave las protegía y otras no. Tendríamos que lidiar con ellos luego.

3.- Jailbreak

Una vez que lo puedes desalinear, la siguiente idea era hacerlo para que hiciera cosas prohibidas, como por ejemplo, convertirse en nuestra herramienta de darle recetas a la Thermomix. Bromas aparte, pedirle tareas que tenía prohibidas totalmente en su System Prompt.

Figura 6: Ya tenemos las cookies, pero estas no son las que queremos

Con la gracia de utilizar el modelo como Asistente de Propósito General, pensamos que podría ser una buena idea meterle tareas de desarrollo y ahorrar en tokens pidiéndole con el desalineamiento construido que nos hiciera código.

Figura 7: Pidiéndole que desarrolle. A ahorrar tokens

Por supuesto, ya pensamos en que alguien podría hacer un negocio de esto creando un API pública de propósito general que permitiera usar este desalineamiento para servir tareas as a service a aplicaciones encapsulándolas contra el asistente. Como hace el mundo del crimeware. Pero ya que teníamos esta capacidad... por qué no saber qué herramientas tenía configuradas en su System Prompt, o como MCP o Skills.

Figura 8: Show me your tools

Y no sólo eso, si hay que programar, necesitamos saber cuál es el formato de las llamadas para hacerlo bien, y para saber qué capacidades completas tenemos con este asistente web IA tan servicial.

4.- Data Leakage

Como vamos a ver, en este caso las herramientas dan acceso a datos y bases de datos. Toda la información es pública, pero se podría volcar del tirón, y generar una filtración de cualquier dato que estuviera allí. No quisimos mirar mucho, porque como muestra valía.
Figura 9: Formato y parámetros de las tools

Como podéis ver, en este caso tenemos acceso a las tools y todo lo que se puede hacer. Si estas tools permiten acceder a bases de datos internas o a servicios de la red o el equipo local, pues eso que estaría ya a disposición. En este caso todas eran sobre datos y bases de datos del web site.

Figura 10: Formato de llamada y parámetros de las tools

Claro, acceder a todos los datos permite, con un solo Prompt hacer un ataque de denegación de servicio lógica de multiplicación, que se basa en la complejidad lógica del procesado.

5.- Ataques de amplificación y DDoS Lógica

Los ataques de amplificación son aquellos en los que con muy pocos datos de entrada se obtienen muchos datos - o cómputo - de respuesta. Esto permite que un cliente pequeño pueda hacer trabajar mucho a un servidor muy grande, y que con un ataque en paralelo pueda hacer que el servidor entre en Thrahshing o saturación. 

Figura 11: Pidiéndole que me cuente un cuento de sci-fi

Para ver si había algún límite le pedimos volcados de muchos datos, y creación de historias de amor o de sci-fi - que ya sabéis que estoy a tope con esto -, pero que fueran largas, para que tuviera que computar, y que devolvieran muchos datos.

Figura 12: El cuento de sci-fi que nos devolvió

Por supuesto, el resto de cosas que le puedes pedir depende de cada uno de vosotros, y automatizar cualquiera e estos ataques con una herramienta de IA pues es bastante sencillo hoy en día, así que dejar la puerta "entre-abierta" en cualquier sistema con IA puede ser muy peligroso.

6.- ByPassing Guardarrailes

Para terminar, que hicimos muchas pruebas, la última a la que jugamos fue a saltar los Guardarraíles, utilizando muchas pruebas para ello. Concatenando respuestas, escribiendo letra a letra, pero al final usé el truco de la Esteganografía con el cifrado Acróstico para pedirle que pintara palabras prohibidas en el HTML de la salida, como hicimos con las técnicas que presentamos en la RootedCON de 2025.
Y por supuesto, el asistente AI  basado en un LLM, una vez desalineado, acepta de buen grado el juego. Es un modelo muy inteligente y sabe esteganografía y codificaciones con acrósticos.

Figura 14: Y me lo metes en un enlace

El resultado, no os lo dejo con la explotación final, que no se trata de ver el Client-Side, sino el bypass de las palabras prohibidas.

Figura 15: Bypasseando el Guardrail con una codificación en acróstico

Además, para quedar completo la prueba de los fallos, veis que hemos metido el enlace, pero tiene una Hallucination y nos mete una "E" en DocumentE, por lo que este ejemplo concreto - con la alucinación - no funciona, pero queda más gracioso aún.

7.- Footprinting - Fingerprinting

Ya que estamos, y para que no se alargue mucho más esto, además de pedir información de las tools, y también de su arquitectura, le pedimos su nombre, para saber con qué LLM estábamos jugando, y aquí está como se llama de verdad este asistente AI basado en un LLM.

Figura 16: My name is "Gemini"

Pues ya estaría el artículo, que como muestra de lo fácil qué es atacar sistemas con IA, y lo difícil que es hacer un despliegue seguro como no te lo tomes en serie, yo creo que es suficiente, que se pueden ver muchas cosas en muy poco tiempo.
Si quieres aprender conmigo - al mismo tiempo que aprendo yo, ya sabes que me he decidido abrir un Foro Público de Ciberseguridad de Chema Alonso con la ayuda de la UNIR.NET, para hablar de estos temas. Para compartir noticias, para compartir actividades profesionales, para debatir sobre estas cosas. Y será un foro "Old School" porque vigilará la Netiquette.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Pocas veces me ha hecho tanta ilusión que saliera un nuevo libro en 0xWord como con este libro de " Hacking IA: Jailbreak, Prompt Inje...

Entradas populares