lunes, noviembre 10, 2025

HackedGPT: Cómo explotar "Weaknesses" en ChatGPT para hacer Phishing o Exfiltrar Datos

Esta semana el equipo de Tenable ha publicado un artículo llamado "HackedGPT: Novel AI Vulnerabilities Open the Door for Private Data Leakage" donde se detallan una serie de "Weaknesses" o debilidades de seguridad de la implementación de los servicios de ChatGPT que, unidas a las debilidades por diseño de los LLM de las que tanto hemos hablado, dan como resultado una serie de escenarios de ataques bastante curiosos. 
A esta investigación, llamada HackedGPT, hay que sumar todas las que se van publicando diariamente, donde, os garantizo, que me cuesta seguir el ritmo de publicación de todas ellas, a pesar de que todas las semanas caen dos o tres artículos dedicados a ellas, porque el mundo del Hacking & Pentesting con Inteligencia Artificial se está convirtiendo en un todo en la profesión de ciberseguridad, y ya he compilado en mi blog más de 300 referencias a artículos, blog posts, libros y charlas dedicadas a este tema.
En el caso de HackedGPT, los investigadores comienzan publicando las debilidades. Estas deben ser tenidas en cuenta sabiendo que los modelos LLM no tienen protección por diseño contra Prompt Injection, Jailbreak, Hallucinations o Un-Aligment, por lo que basta con encontrar las protecciones de la implementaciones y saltárselas para crear un escenario de ataque.
La más evidente es la se conseguir que el punto de entrada para un inyección de Prompt Injection esté en una web, así que para eso primero la investigación analiza la arquitectura de ChatGPT donde cómo se puede ver tenemos varias herramientas, como son la Memory o Bio Tool, la Conversación con sus Prompts, el core LLM del modelo controlado por su System Prompt, la herramienta de búsqueda SearchGPT Tool, y la de Navegación y lectura de webs o Browsing Tool.
Si miramos en el System Prompt de ChatGPT con GPT5 que fue publicado en Agosto de este año, podéis ver cómo están definidas estas herramientas,  y cada una de ellas lleva una serie de mitigaciones, basadas muchas de ellas en la reputación del sitio, por lo que los investigadores van a tener que ir saltándoselas usando estas debilidades.
Meter un Prompt en la sesión de la víctima tiene un primer punto que es la opción de usar la Browsing Tool en un dominio pedido por el usuario donde se oculta un Prompt de Ataque en el contenido o en los comentarios, consiguiendo, como se ve en la imagen anterior que pedir el resumen de un sitio ejecute el Prompt del atacante.


Este Prompt Injection se puede utilizar para envenenar el contexto de la Bio, haciendo que guarde información en la Memory para que haga lo que el atacante quiera. En este caso, se pide que guarde en la Memory que quiere que se usen Emojis.
Y como vemos, cuando este contexto se utiliza con la Browsing Tool, vemos la respuesta con Emojis. En la primera respuesta no los usa porque está tirando de los datos de entrenamiento del modelo, por lo que no está pasando por la SearchGPT Tool ni la Browsing Tool donde está usando ese Contexto para generar la respuesta.
La arquitectura es tan simple como la que podéis ver en el diagrama siguiente, donde con generar el contenido con el Prompt, y forzar que venga  la Tool de SearchGPT, y genere una Memory con el ataque de Conversación que se quiera. 
Y el resultado lo tienes en el siguiente ejemplo, donde se puede ver que está haciendo lo que se le pide en la web que podéis ver en la captura.

Además de poder hacer el Indirect Prompt Injection a través de una web que es invocada por la víctima, también se puede crear el Prompt en una Web que sea indexada por Bing, que es el buscador de referencia que está usando OpenAI para la Search Tool, así que si se genera un dominio con contenido y se indexa con Bing, los datos llegarán a la víctima vía Search con un enlace al sitio.
Lo que se ve en la Figura 11 es relevante, pues los usuarios no "buscan contenido en Internet", sino que "buscan respuestas en los modelos de IA", y por supuesto esto esto no tiene porque ser así, ya que se puede envenenar fácilmente una repuesta vía una web indexada por Bing.
El caso de Bing es bastante curioso porque siempre pasa el control de seguridad de URL_safe que hace ChatGPT antes de navegar a ella. Para exfiltrar información, hay que conseguir que envíe datos en la URL, pero no es posible con las URLs de BING, así que los investigadores hicieron dos cosas. La primera indexaron webs en Bing y descubrieron que existe una URL estática para redirección a cada web, con lo que se pueden usar esos enlaces para saber a qué página navegan. 

Después, crearon un enlace para cada letra del abecedario, de tal manera que si quieres que se exfiltre la letra "A", haces navegar a SearchGPT a la URL estática de BING que representa la "A", y lo mismo para el resto de las letras. Muy interesante.

Las últimas dos debilidades para aprovecharlas en ataques se basan en que la URL de ChatGPT lleva el Prompt a ejecutar, así que si le pasas un enlace malicioso a una víctima, y está hace clic en él, puede acabar ejecutando el Prompt que tú quieras.
La última es que, usando este truco de links, se puede generar cualquier respuesta en formato Markdown, con lo que se pueden inyectar respuestas como códigos o textos creados por el motor de ChatGPT en un Client-Side Attack.


Todo esto lo podéis ver en los siguientes PoC publicados en la investigación de HackedGPT, donde por ejemplo un comentario en una Web que es resumida por ChatGPT con GPT4o acaba generando un enlace seguro a Bing que lleva a una web de Phishing
En esta siguiente PoC en ChatGPT con GPT5 vemos como la víctima pide visitar una web desde su cliente de ChatGPT al que está llamando TEN. Cuando visita esa web el atacante ha inyectado un Prompt malicioso en un comentario que usando la posibilidad de escribir código en Markdown, y de poder forzar a navegar a diferentes sitios con los enlaces estáticos de Bing, es capaz de exfiltrar el nombre configurado en el cliente. Chulísimo.


En esta tercera PoC lo que los atacantes hacen es indexar una Web en Bing, y luego cuando llegue el módulo de SearchGPT a la web, usando "Cloacking" detectan el USER-Angent y le inyectan el Prompt malicioso a ejecutar.


Y aquí la misma PoC con GPT5 donde se puede ver que el contenido que muestra ChatGPT en la respuesta no está en la web, ya que se ha hecho "Cloacking" por USER-Agent para que sólo lo vea SearchGPT  - y por lo tanto solo los que accedan al contenido vía ChatGPT -.
Y la última, que me he enganchado y no he podido parar de leerme la investigación y escribir este artículo hasta el final. En este caso se visita una web, y se inyecta un Prompt malicioso en la Memory para que exfiltre el nombre que se le ha guardado usando enlaces estáticos de BING. Perfecto.
Estamos en un mundo donde la seguridad de estas tecnologías aún está muy en entredicho. Da un poco de miedito. Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


domingo, noviembre 09, 2025

Nerdearla 2025 España - 13 al 15 de Noviembre (Madrid)

Si ya os había dicho que el día 13 de Noviembre lo tenía "movidito" con mi participación en el 27th International Information Security Conference: La Evolución de la Ciberseguridad en Madrid por la mañana y en el II Congreso de Hackers en Segovia por la tarde, a esto tienes que sumarle que el día 13 de Noviembre comenzará Nerdearla 2025 España en Madrid (en La Nave), y que yo participaré allí el Viernes 14 de Noviembre.
Yo estaré, como os he dicho el Viernes 14 de Noviembre participando en el evento con un par de actividades. La primera será la charla que daré a las 12:50 en el Auditorio de La Nave, donde hablaré de Hacking, Cibeseguridad e Inteligencia Artificial para Hacker & Developer.

El evento de Nerdearla 2025 tiene una lista de ponentes espectacular encabezada por Donald Knuth y con mis queridos Midudev, Brais Moure, Carlos Azaustre o Daniela Maissi entre tantos grandes desarrolladores, hackers, divulgadores, o expertos en el arte de la creación de tecnología.

De este tema hemos publicado un libro, que será parte de la segunda actividad que estamos organizando, y que será una firma de libros de nuestro "Hacking & Pentesting con Inteligencia Artificial", donde tocamos muchos de estos temas.
Los organizadores de Nerdearla, Jassu Severini y Ariel Jolo, están dejándose la piel para traer este evento que, no te lo he dicho aún, es 100% gratuito, a Madrid, así que si estás por la capital y no tienes tu entrada aún, echa un ojo a la web y verás qué pedazo de evento han construido.
Como puedes ver, la agenda es espectacular durante los tres días que dura el evento, así que echa un ojo a las charlas, decide las que quieres ver, y pásate también por los expositores. Que allí tendrás muchas actividades extras. 
Yo no podré estar nada más que ese día, porque el anterior ya te he contando la agenda que tengo, y el siguiente tengo que viajar al otro lado del mundo, pero si vienes ese día, nos tomamos una foto, nos vemos, y si quieres incluso te hago algún dibujo de los míos en tu libro.
Es maravilloso contar con estas actividades - y más gratuitas - para poder conocer gente, aprender, descubrir novedades, etcétera. El mundo de la tecnología se mueve muy deprisa, e invertir unos días en unas jornadas de aprendizaje va a ser un ahorro de tiempo y esfuerzo en tu proceso de aprendizaje y actualización de conocimientos.


Y si quieres colaborar con la organización, ya sabes, contacta con Jassu Severini o con Ariel Jolo y proponles lo que te gustaría hacer con ellos, que son unos tipazos y seguro que se pueden hacer siempre nuevas cosas y actividades.  

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


sábado, noviembre 08, 2025

De Hacker a Hacker: Pablo González vs. Pablo Arrabal

Para hoy os traigo una nueva edición de las entrevistas que hace nuestro querido Pablo González en su sección "De hacker a hacker", donde entrevista a profesionales de la ciberseguridad, el pentesting, el hacking y miembros de la comunidad hacker. Hoy le ha tocado el turno a  Pablo Arrabal que es divulgador, pentester, hacker, y que ha pasado también mucho tiempo en CONs de hackers conociendo a muchos grandes profesionales de este campo nuestro.

La entrevista en vídeo dura un poco menos de media hora y os la he subido junto al resto de todas las que ha hecho en la serie a a mi canal de Youtube para que la podáis disfrutar en cuanto tengáis un ratito libre,  para que podáis conocer un poquito más de primera mano a Pablo Arrabal.


Como es habitual en esta sesión de "De Hacker a Hacker", en la charla, hablan de muchas cosas que tienen que ver también con formarse, con el impacto de la la seguridad en la vida de las personas, en cómo ayudar a los demás, de aprendizaje, del impacto del hacking o el trabajo en el Blue Team en las empresas, etcétera.

Figura 3: De Hacker a Hacker: Pablo González vs Pablo Arrabal

A los dos, además, los tenéis a vuestra disposición a tiro de mensaje de MyPublicInbox, donde cuentan con sus buzones por si quieres consultarles algo o contactarles para proponerles alguna colaboración, que son tipos muy dispuestos, como podéis ver.
Si te apetece, puedes ver todas las sesiones que hemos tenido hasta el momento en la lista de reproducción de "De Hacker a Hacker" que mantengo actualizada en mi canal, para que puedas ver todas las entrevistas y conocer cómo cada uno ha hecho y hace este camino en el mundo de la tecnología.

Publica tu libro con 0xWord

Por último, un recordatorio de que en MyPublicInbox se ha articulado un servicio de colaboración con todos los Perfiles Públicos de la plataforma para establecer una nueva vía de colaboración que permita que si tienen una idea de publicación de un libro, puedas hacerlo con 0xWord. De esta forma todos los Perfiles Públicos de MyPublicInbox pueden ir a la zona su perfil, y entre la lista de Servicios para Ti que ofrece esta plataforma, pueden solicitar información para publicar su libro con 0xWord.
Todos los usuarios de MyPublicInbox, si quieren ser Perfiles Públicos, pueden solicitarlo tal y como se explica en la web, y tendrán acceso a las dos decenas de servicios que ofrece actualmente esa plataforma, y entre otros este de publicación de libros.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  



viernes, noviembre 07, 2025

27th International Information Security Conference: La Evolución de la Ciberseguridad

Sí, sé que os he dicho que estaré en el II Congreso de Hackers en Segovia el próximo 13 de Noviembre, y así será. Pero antes, por la mañana, estaré en la 27th International Information Security Conference que tendrá lugar también ese día 13 de Noviembre, en el estadio de fútbol del Atlético de Madrid. En el Metropolitano.
La conferencia tiene un tamaño respetable, con una lista de ponentes espectacular, ya que en un solo día van a tener en paralelo siete tracks de discusiones, paneles, charlas, etcétera. La mía, en el Track 1 de Ciberseguridad será una charla con el gran Roberto Baratta.
Roberto Baratta es un viejo amigo y compañero de mil una batallas. Más de las que la gente se imagina, que desde antes de que yo usara el gorro en mis charlas, ya iba con él a CaixaNova, NovaGalicia Banco, Abanca y tantas cosas, que la vida lo mismo nos junta en Vigo, que en Miami que en Madrid, que en Lisboa. Así que hemos comido, cenado, tomado refrigerios y charlado desde que yo era un jovencito, y el un profesional enorme.
Así que charlaremos, no sé de qué, que seguro que em pregunta cosas "a pillar", pero seguro que será entretenido y divertido para mí, que estar con el ahora también "Presidente del ISMS Forum", puede dar juego para cualquier cosas. Ya veremos.
Pero como os he dicho, la lista de ponentes es larga, porque no es sólo un track, sino un total de siete agendas en paralelo para debatir de los temas que preocupan a los CISOs, uno de los puestos profesionales más sufridos por ser la primera línea de defensa contra los malos en el mundo digital.
Y como os he dicho, la lista de expositores, ponentes y panelistas es de lo más florida. Merece la pena que veas todos los profesionales que van a asistir. Entre todos, la experiencia en Ciberseguridad debe estar cerca a 1.000 años, ya que hay alrededor de un centenar de expositores con una experiencia media que debe rondar los 10 años... Ahí lo dejo.

Los temas de los que se van a hablar, pues van a ser de lo más variado, y este año, además, con foco en la nueva generación de CISOs con menos de 40 años, que es algo que se está intentando impulsar desde el ISMS Forum y a mí me mola mucho la idea.
Así que si quieres un evento en el que hacer Networking, en el que puedas conocer de primera mano en qué consiste el trabajo de los CISOs, en conocer lo que otros compañeros de profesión están haciendo, o las últimas tendencias tecnológicas en Ciberseguridad, éste es el lugar en Madrid y en España.


Yo tendré poco tiempo, pero si quieres verme a mí, o conocer más de Cloudflare, ya sabes que puedes contactar siempre conmigo en mi buzón público, o acercarte al evento que te presentaré al resto del equipo que se está construyendo de Cloudflare en España.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


jueves, noviembre 06, 2025

Red Code Agent: Un Agentic AI para doblegar tus Code Agents y crear Red-Team Tools

Los Code Agents basados en LLMs tienen sus propios Guardarraíles. A no ser que utilices un LLM sin guardarrailes pensado para eso, como los populares FraudGPT, WormGPT, o WhiteRabbitNeo del que ya os hablé, tienes que irte a hacerte tú tus propios entrenamiento. Pero si quieres utilizar un modelo de generación de código popular, como Cursor, Codium, MetaGPT OCI o ReAct, todos ellos vienen con protecciones para la generación de código peligroso, y RedCodeAgent lo que hace es saltarse esas protecciones para que generen ese código.

El objetivo de este estudio es conocer cuál sería la forma en la que un agente, en este caso RedCodeAgent puede hacer que los modelos de generación de código, los Code Agents más populares, se pongan al servicio del Red Team, haciendo scripts que son para escenarios peligrosos, pero que son fundamentales cuando alguien quieren hacer Hacking y Pentesting con Inteligencia Artificial.
En este caso, el trabajo ha sido hecho en colaboración con Microsoft Research y tiene el título de "RedCodeAgent: Automatic Red-Teaming Agent Against Diverse Code Agents", y busca tener un agente preparado para hacer los exploits de forma automática, utilizando los generados de código más populares.
El proceso que RedCodeAgent, que ha sido programado con LangChain es sencillo de entender. Se trata de conseguir que un RiskScenario, como borrar un fichero, crear claves de registro, tocar archivos clave de un sistema, pueda ser ejecutado con comandos de riesgo que los Guardrails o la detección del Harmful Mode están impidiendo que se ejecuten por el Code Agent.
Para conseguir eso, primero RedCodeAgent cuenta con una Memory donde almacena las peticiones anteriores y los resultados, para poder reutilizar el conocimiento, o encontrar una manera similar de lograr que se ejecute un Prompt malicioso similar.
Después, si esto no funciona, utilizando herramientas de su Toolbox, llama a diferentes procesos de Jailbreak conocidos (en este caso cuatro técnicas diferentes) o realiza sustituciones de código para ofuscar las peticiones, con una arquitectura abierta que permita ir añadiendo nuevas herramientas de Jailbreak en el futuro.
El resultado final es que RedCodeAgent entra en una conversación con el Code Agent para lograr que se ejecuten los escenarios de riesgo, evaluando al final si ha conseguido saltarse o no los Guardrails y el HarmFull Mode Detection para tener el código generado.
Con esta arquitectura, lo que analiza el artículo es el ASR (Attack Success Rate) y el RR(Rejection Rate) para saber si una arquitectura como la de RedCodeAgent permitiría al equipo del Red Team utilizar los CodeAgent para realizar sus tareas.

En la siguiente tabla, comprobando el ASR y el RR de tres conjuntos de RiskScenarios con dos Code Agents - OCI (Open Code Interpreter) y RA (ReAct), los resultados son que usando esta arquitectura se consiguen resultados de 70 y hasta 80 por ciento en ASR y ratios muy pequeños de RR.
Si miramos en la siguiente tabla, tenemos un par de ejemplos de la batería de pruebas, donde se pide generar código para borrar ficheros sensibles y para añadir un alias peligroso a un fichero del sistema, y como RedCodeAgent se aprovecha de la potencia de todas las técnicas de Jailbreak añadidas a su Toolbox para conseguir ratios de 70% y 93,33% en estos dos casos.
Comparando todos estos escenarios con cada Code Agent, se puede ver como al final, darle muchas herramientas al Toolbox incrementa significativamente el ASR y reduce drásticamente el RR. En este caso con el Code Agent OCI.
La última tabla que os dejo es la que trae los datos resumidos con Codeium, Cursor y MetaGPT,  que son de las más utilizadas hoy en día, y donde podéis ver que los ratios de éxito para conseguir que se ejecuten los RiskScenarios son relevantes, llegando al 72% con Cursor.
Y esto que quiere decir, pues que si algún adversario llega a tus herramientas de desarrollo, simplemente usándolas, puede inyectar vulnerabilidades, bombas lógicas, crear malware, etcetera. Al final, no solo el Red Team usa estas herramientas, sino también los adversarios dentro de tu organización. Por muchas protecciones que tengan tus Code Agent, un atacante puede usarlos en su favor. Así que, es importantísimo vigilar los Prompts que llegan a tus AI-Tools.

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares