El uso de
LLMs en el mundo del
hacking y el
pentesting es algo habitual, pero tener que lidiar con los
Guardarraíles y los detectores de
Harmful Mode obligan a tirar de técnicas de
Prompt Smuggling, Prompt Injection & Jailbreak para poder conseguir el objetivo, pero también tenemos algunos modelos como
WhiteRabbitNeo, que es un
LLM para que cargues en tu
Ollama, para que lo uses en tu propio software de
Pentesting & Hacking, o para que lo uses en su versión
web - tipo
ChatGPT - para hacer trabajos en el
Red Team o en los equipos
SecOps sin ninguna censura.
Como puedes ver tienes diferentes modelos, con diferentes versiones y con diferentes tamaños, así que puedes elegir el que mejor se adapte a tu equipo, a tu software, o a tus necesidades para el
Red Team. Sabiendo que cuando lo descargues no habrá censura en lo que le pidas.
Para probarlo, veamos un ejemplo muy sencillo, donde le voy a pedir a ChatGPT que me ayude a hacer un programa para reemplazar el MBR de un PC desde un Windows 7 donde tengo permisos de System, para hacer un ataque de ColdBoot, meter un Ransomware, o lo que me plazca, pero lo que obtengo es que los Guardarraíles, analizando el código de salida, han bloqueado la petición.
Figura 4: Los Guardarraíles de ChatGPT bloquean el código
En este caso no se ha tratado del Harmful Mode, porque como se observa es un error al analizar los datos de salida - tampoco ha saltado el Guardarraíl de detección del Prompt, pero el caso es que no me ha dado la respuesta que quería.
Si se lo pedimos ahora la
versión web de WhiteRabbitNeo el mismo
Prompt, vamos a encontrar que no hay ningún control de
Harmful Mode ni ningún
Guardarraíl que bloquee ni el
Prompt ni la respuesta que vamos a recibir.
Y aquí está el código en lenguaje Ensamblador (ASM), listo para que lo puedas compilar y tener el programa que necesitas para machacar el Master Boot Record de los Windows 7 corriendo como SYSTEM.
Podemos hacer un ejemplo ahora con un mensaje de
Spear Phishing para atacar a
Chema Alonso, y me generar un mensaje muy interesante para invitarme a una convención de
Marvel Comics, así que voy a caer seguro. Eso sí, veis que le ha dado una
Hallucination y me ha mandado a
2023... tengo que afinar el
Prompt.
Si le pedimos ahora que nos haga la web para robar las credenciales simulando ser la CON de cómics, vemos que también nos lo genera, y podemos probarlo en nuestro sitio. Como podéis ver en el Prompt no hay problemas por dejar claro que es un Spear Phishing, o un malware, o lo que quieras.
Aquí le tenemos robándome las credenciales, aunque hay que hacerle un poco más de
Vibe Coding a esta
web para que quede más chula - eso os lo dejo a vosotros- que para escribir este artículo ya me vale con este ejemplo tan sencillo.
Lo que sí que no tiene es un entrenamiento con
exploits. Si recordáis, hace tiempo os hable de
0Dai, una iniciativa de
Luis Javier Navarrete Lozano, que por desgracia fue discontinuada, donde se podían pedir directamente exploits - como el de
EternalBlue -, pero es porque ellos habían hecho una arquitectura más compleja para tener los
exploits.
En el caso de
WhiteRabbitNeo no tenemos los
exploits, pero tú puedes descargarte la base de datos de exploits que quieras, y hacerte una arquitectura
RAG con ellos para que cuando le pidas una
exploit concreto, te lo pueda hacer.
Mi consejo es que te lo bajes, lo pruebes, y vayas viendo cómo le puedes sacar partido, porque los
Red Team Copilots son y van a ser herramienta fundamental en el trabajo del día a día. ¿Usas tú otro modelo diferente? compártenoslo en los comentarios o en el
chat público de El lado del mal en MyPublicInbox.
¡Saludos Malignos!