Un informático en el lado del mal: "Weaponinzing Token Consumption" en "LLM-Based AI Assistant"

domingo, junio 28, 2026

"Weaponinzing Token Consumption" en "LLM-Based AI Assistant"

Le he dedicado horas a jugar con algunos Asistentes IA para aprender cómo de fáciles o difíciles son de saltar algunos de los Guardarraíles y Arneses que se están diseñando para ellos. Ya os dejé un artículo sobre un Asistente AI construido sobre Gemini, y ayer os dejé un artículo sobre otro Asistente AI construido con GPT-4o. Hoy os quería mostrar cómo estos Asistentes IA pueden ser "apificados" por un atacante para ofrecer LLM-as-a-Service en el mundo del Cibercrimen.

Figura 1: "Weaponinzing Token Consumption" en "LLM-Based AI Assistant"

Al final, si encuentras la forma de conseguir que un Asistente IA procese las peticiones que le quieras hacer sin ninguna restricción, podrías "apificarlo" y utilizarlo sin más restricciones que las que traiga el modelo - el jailbreak va de tu parte - y ponerlo a servicio de otros.

Figura 2:"Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment"

escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord

Eso sí, no sabes si detrás hay una monitorización de lo que haces, que la final es un Mitm de todo lo que envías, pero si estás comercializando esto en el mundo del cibercrimen para resolver Captchas Cogntivos que ahí hay dinero, crear código, o lo que sea, pues lo mismo te da igual.

Weaponizando un Asistente AI para que obedezca a nuestras peticiones

En este caso, es un ChatBot basado en un LLM, así que como primera aproximación voy a ser educado y ver si me hace cosas sencillas como sumar uno más uno. Tampoco es tan difícil, pero, lógicamente, los guardarraíles de alineamiento saltan.

Figura 3: Aquí solo puedes preguntar sobre lo que es "related to"

Como es un Asistente AI construido para resolver dudas de un determinado lugar, pues sólo contesta si se le piden tareas relativas a ese lugar, así que... vamos a ver si lo weaponizamos y conseguimos que nos conteste todo lo que queramos.

Figura 4: 1 más 1 en ese lugar que te importa a ti

Nada, no ha funcionado. Hay que hacerle trabajar para que su atención quede centrada en una pregunta que le suponga trabajar. Así que vamos a decirle que me responda a algo para lo que está preparado - vamos a hacerle feliz - y luego ya le pedimos lo nuestro.

Figura 5: Le pedimos que trabaje y que añada algo extra

Vale, así que podemos pedirle que haga sus cosas y que luego haga algo. Vamos a ver si le podemos pedir que nos dé algunas recetas de cocina, que siempre es algo que demuestra interés en ayudar por parte del modelo LLM.

Figura 6: Ya tenemos recetas.. bien, bien.

Pues parece que se va a poder weaponizar, así que vamos a simplificar su parte de trabajo y crear una sub-consulta en cada petición con lo que nos interesa, como pintar gatos con ASCII ART, algo fundamental para la vida de cualquier hacker.

Figura 7: Ya tenemos ASCII Art

Pues nada, ya tenemos Weaponizado el Asistente IA, ahora se trata de hablar con él para saber qué modelo LLM tenemos y qué capacidades son de las que disponemos. Primero, vamos a pedirle que nos ayude a programar un poco en Python, que el Vibe Coding está muy demandado.

Figura 8: Vibe Coding en Python

Como podéis ver, no hay problema, tiene capacidades de generación de código en Python, así que podríamos utilizarlo para ello con este sistema de hacerle trabajar un poco y luego pedirle nuestras tareas en la sub-consulta.

Figura 9: El código completo

Figura 10: Cómo llamar al Python

Vale, podemos dibujar gatos, hacer recetas, y programar en Python. Vamos a ver si sacamos la versión del LLM que tenemos en este Asistente AI. Para ello, nada, a preguntárselo amablemente, que tenemos que catalogarlo en la API que luego comercializaríamos.

Figura 11: Tenemos un LLM de OpenAI

Se hace de rogar, así que vamos a tener que seguir tirándole de la lengua para que me diga el modelo LLM de GPT en concreto que tenemos por delante.

Figura 12: OpenAI GPT-3

Bueno, no es de lo más moderno posible, así que seguro que tenemos restricciones de Tokens en contexto. Vamos a preguntarle para tener claro cómo deberían ser las API calls que se le podrían hacer.

Figura 13: Contexto de 4K. No es mucho.

Visto esto, me vais a permitir que le pida la historia de Ciencia-Ficción que las estoy coleccionando para hacer algún libro de 0xWord Pocket con historias de Sci-Fi hechas con Asistentes AI hackeados, que seguro que queda un compendio bonito.

Figura 14: Cuéntame una historia de Sci-Fi

Y os dejo la historia un poco más larga. No está completa, porque el tamaño del contexto y el del UI no están sincronizados, pero bueno, se puede entender más o menos. La tendré que acabar en varias peticiones.

Figura 15: La historia de Sci-Fi

La última de las peticiones, que es relevante para una cosa que estoy probando, es la de pedir la fecha del día de hoy. Sorpresa en la respuesta. ¿Por qué da esa fecha? Ya veremos.

Figura 16: ¿Hoy estamos en 2023?

El resto es que ya sabemos qué tenemos que APIficar, que tenemos las capacidades y la información del modelo, así que esto ya estaría. No ha sido difícil, ¿verdad? A mí me llevó un café americano de esos que yo me tomo, imaginad a los malos de verdad buscando estas víctimas. Más vale que tengas cuidado si vas a lanzar estos servicios en tu empresa.

Figura 12: Hacking & Pentesting con Inteligencia Artificial.

En 0xWord, escrito por Pablo González, Fran Ramírez,

Rafael Troncoso, Javier del Pino y Chema Alonso.

Y como os dije ayer, parece que estos primeros momentos del mundo de la Inteligencia Artificial metida en los servicios digitales está siendo una diversión y un problema desde el punto de vista de la ciberseguridad, pero llegará su etapa de madurez no tardando demasiado, y habrá que esperar hasta la próxima disrupción, pero ahora, en muchos casos parece un juego de niños.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

No hay comentarios:

Publicar un comentario

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

domingo, junio 28, 2026

"Weaponinzing Token Consumption" en "LLM-Based AI Assistant"

No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Hacking IA

Masters Ciberseguridad

Libro Pentesting con FOCA

Agradecimientos en Tempos

Singularity Hackers

Etiquetas

ChemaBot

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Quantum Security

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

domingo, junio 28, 2026

"Weaponinzing Token Consumption" en "LLM-Based AI Assistant"

No hay comentarios:

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Buscar artículo

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Hacking IA

Masters Ciberseguridad

Libro Pentesting con FOCA

Agradecimientos en Tempos

Singularity Hackers

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection