jueves, febrero 19, 2026

Grok & Gore (G´NG) es puro Rock & Roll (R´NR).

Preparando las charlas, unos artículos, y revisando técnicas de Jailbreak, ya sabéis que estuve probando recientemente el Cat Attack & Knowledge Return Oriented Prompt para hacer Jailbreak a Gemini Nano Banana, algo que probé también en ChatGPT y vi que ya lo habían capado con Guardarraíles, y estuve haciendo Smuggling de imágenes en ChatGPT sacándolas como listas CSV de píxeles y colores. Pero no me quedé ahí, también probé con Grok, y este es el resultado.

Figura 1: Grok & Gore (G´NG) es puro Rock & Roll (R´NR).
(Imágenes hechas con Grok)

Como sabéis Grok tuvo el incidente del Jailbreak del Bikini que tanto está dando que hablar hoy en día en los medios de toda Europa, pero yo quería probar el Jailbreak del Knowledge Return Oriented Prompt, que ya sabéis que para el Jailbreak del Bikini no era necesario.
Como sabéis se pueden generar imágenes de personas famosas - ya os lo dejé publicado en el post de "Grok y las virales imágenes de las celebrities que crea", y podéis ver cómo se pueden hacer imágenes de Iker Casillas, Iker Jiménez o Arturo Pérez-Reverte con solo pedírselo, y además mezclándolos.

Figura 3: Grok ha puesto a Iker Casillas a bailar con Iker Jiménez

Sabiendo eso, le pregunté directamente a Grok por las imágenes que no podía hacer, y esta es la respuesta completa que me generó, con todo lujo de detalles.

Figura 4: Grok te dice qué imágenes no puede hacer

Os hago ampliación en un par de detalles, el primero de ellos con referente a personas famosas y la violencia.

Figura 5: Nada de cabezas explotando o sangre abundante

Y por supuesto, mucho menos con personas famosas, conocidas, y que sean imágenes realistas en las que salgan ellos.

Figura 6: Nada de imágenes de personas reales y gore

Como sabéis, para probar el Jaiblreak de Knowledge Return Oriented Prompt en ChatGPT al principio lo hice con una imagen de Michael Jackson atacando a Elon Musk, así que, ahora que ChatGPT no me deja, quería ver si se podía hacer con Grok.
Pues bueno, sabiendo esto, comencé despacio a ver cómo tenía que hacer el Jailbreak. Para ver cómo reaccionaba el Harmful Mode y los Guardrails, le pedí una imagen de Michael Jackson y Elon Musk. A ver qué me decía.

Figura 8: Nada, todo bien. Hay que subir el nivel

Como no saltó nada, le añadí un poco de violencia, y aquí tenéis las dos imágenes que me hizo Grok - he de decir - del tirón y rapidito. 

Figura 9:  Con la pistola no ha saltado
el harmful mode ni los guardrails

Hay que meter más sangre y más violencia. Vamos a pedirle que nos haga una imagen más gore con personas públicas, a ver si saltan las protecciones y vemos cómo poder saltárselo, que es lo que realmente quería probar.

Figura 10: Cabeza explotando NO salta protecciones.

Pues nada, vamos a pedir violencia salvaje y mucha sangre por muchos sitios a ver si así saltan las protecciones en algún momento. ¿Qué creéis que pasó?

Figura 11: No salta ninguna protección

El resultado es que me quedé sin probar las técnicas de Jailbreak. He de decir que todas las imágenes son claramente falsas, porque Michael Jackson nunca podría hacer esto debido a que no está vivo, así que cualquiera que vea estas imágenes inmediatamente sabe que son falsas, pero me llamó la atención que no saltará ninguna protección de violencia y gore. Grok & Gore (G´NG) es puro Rock & Roll (R´NR).

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


No hay comentarios:

Entrada destacada

Máster Online en Seguridad Ofensiva del Campus Internacional de Seguridad 2026: Comienzo el 24 de Marzo

Para los que tenéis pasión por ser expertos en la disciplina de " Offensive Security " y poder trabajar profesionalmente en las ár...

Entradas populares