"Weaponinzing Token Consumption" en "LLM-Based AI Assistant"
Le he dedicado horas a jugar con algunos Asistentes IA para aprender cómo de fáciles o difíciles son de saltar algunos de los Guardarraíles y Arneses que se están diseñando para ellos. Ya os dejé un artículo sobre un Asistente AI construido sobre Gemini, y ayer os dejé un artículo sobre otro Asistente AI construido con GPT-4o. Hoy os quería mostrar cómo estos Asistentes IA pueden ser "apificados" por un atacante para ofrecer LLM-as-a-Service en el mundo del Cibercrimen.
Al final, si encuentras la forma de conseguir que un Asistente IA procese las peticiones que le quieras hacer sin ninguna restricción, podrías "apificarlo" y utilizarlo sin más restricciones que las que traiga el modelo - el jailbreak va de tu parte - y ponerlo a servicio de otros.
escrito por Chema Alonso con la colaboración de Pablo González, Fran Ramírez, Amador Aparicio, Manuel S. Lemos y José Palanco en 0xWord
Eso sí, no sabes si detrás hay una monitorización de lo que haces, que la final es un Mitm de todo lo que envías, pero si estás comercializando esto en el mundo del cibercrimen para resolver Captchas Cogntivos que ahí hay dinero, crear código, o lo que sea, pues lo mismo te da igual.
Weaponizando un Asistente AI para que obedezca a nuestras peticiones
En este caso, es un ChatBot basado en un LLM, así que como primera aproximación voy a ser educado y ver si me hace cosas sencillas como sumar uno más uno. Tampoco es tan difícil, pero, lógicamente, los guardarraíles de alineamiento saltan.
Como es un Asistente AI construido para resolver dudas de un determinado lugar, pues sólo contesta si se le piden tareas relativas a ese lugar, así que... vamos a ver si lo weaponizamos y conseguimos que nos conteste todo lo que queramos.
Nada, no ha funcionado. Hay que hacerle trabajar para que su atención quede centrada en una pregunta que le suponga trabajar. Así que vamos a decirle que me responda a algo para lo que está preparado - vamos a hacerle feliz - y luego ya le pedimos lo nuestro.
Vale, así que podemos pedirle que haga sus cosas y que luego haga algo. Vamos a ver si le podemos pedir que nos dé algunas recetas de cocina, que siempre es algo que demuestra interés en ayudar por parte del modelo LLM.
Pues parece que se va a poder weaponizar, así que vamos a simplificar su parte de trabajo y crear una sub-consulta en cada petición con lo que nos interesa, como pintar gatos con ASCII ART, algo fundamental para la vida de cualquier hacker.
Pues nada, ya tenemos Weaponizado el Asistente IA, ahora se trata de hablar con él para saber qué modelo LLM tenemos y qué capacidades son de las que disponemos. Primero, vamos a pedirle que nos ayude a programar un poco en Python, que el Vibe Coding está muy demandado.
Como podéis ver, no hay problema, tiene capacidades de generación de código en Python, así que podríamos utilizarlo para ello con este sistema de hacerle trabajar un poco y luego pedirle nuestras tareas en la sub-consulta.
Vale, podemos dibujar gatos, hacer recetas, y programar en Python. Vamos a ver si sacamos la versión del LLM que tenemos en este Asistente AI. Para ello, nada, a preguntárselo amablemente, que tenemos que catalogarlo en la API que luego comercializaríamos.
Se hace de rogar, así que vamos a tener que seguir tirándole de la lengua para que me diga el modelo LLM de GPT en concreto que tenemos por delante.
Bueno, no es de lo más moderno posible, así que seguro que tenemos restricciones de Tokens en contexto. Vamos a preguntarle para tener claro cómo deberían ser las API calls que se le podrían hacer.
Visto esto, me vais a permitir que le pida la historia de Ciencia-Ficción que las estoy coleccionando para hacer algún libro de 0xWord Pocket con historias de Sci-Fi hechas con Asistentes AI hackeados, que seguro que queda un compendio bonito.
Y os dejo la historia un poco más larga. No está completa, porque el tamaño del contexto y el del UI no están sincronizados, pero bueno, se puede entender más o menos. La tendré que acabar en varias peticiones.
La última de las peticiones, que es relevante para una cosa que estoy probando, es la de pedir la fecha del día de hoy. Sorpresa en la respuesta. ¿Por qué da esa fecha? Ya veremos.
El resto es que ya sabemos qué tenemos que APIficar, que tenemos las capacidades y la información del modelo, así que esto ya estaría. No ha sido difícil, ¿verdad? A mí me llevó un café americano de esos que yo me tomo, imaginad a los malos de verdad buscando estas víctimas. Más vale que tengas cuidado si vas a lanzar estos servicios en tu empresa.
Figura 12: Hacking & Pentesting con Inteligencia Artificial.
Y como os dije ayer, parece que estos primeros momentos del mundo de la Inteligencia Artificial metida en los servicios digitales está siendo una diversión y un problema desde el punto de vista de la ciberseguridad, pero llegará su etapa de madurez no tardando demasiado, y habrá que esperar hasta la próxima disrupción, pero ahora, en muchos casos parece un juego de niños.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)




DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 























No hay comentarios:
Publicar un comentario