viernes, noviembre 14, 2025

Hoy en Nerdearla 2025: Firma de Libros y Charla

Como ya os había dicho, hoy estaré en Nerdearla 2025 España en Madrid (en La Nave), y haré un par de cosas por la mañana, antes de irme al medio día que por la tarde tengo también actividades aprovechando mi paso por Madrid. Llegaré pronto hoy a La Nave, y haré la firma de libros a las 10:30 donde podrás pasarte a verme, charlar conmigo, e incluso, si te apetece, que nos hagamos una foto.
Será la firma del libro de "Hacking & Pentesting con Inteligencia Artificial", donde tocamos muchos de los temas de los que voy a hablar en la charla, y como solo tengo un ratito, pues solo hay una caja de 30 libros para los 30 primeros que los queráis. Recordad, de 10:30 a 11:30 será la firma de los libros.
Después, como ya os he dicho estaré, dando mi charla a las 12:50 en el Auditorio Principal de La Nave, donde hablaré de Hacking, Cibeseguridad e Inteligencia Artificial para Hacker & Developer. Ya sabéis, de mis cosas. Será de 12:50 a 13:30 y después, me iré, que tengo comida por Madrid, así que si me quieres ver, esos son los puntos de encuentro.
Pero recuerda que el evento de Nerdearla 2025 tiene una lista de ponentes espectacular encabezada por Donald Knuth y con mis queridos MidudevBrais MoureCarlos Azaustre o Daniela Maissi entre tantos grandes desarrolladores, hackers, divulgadores, o expertos en el arte de la creación de tecnología. 
Los organizadores de NerdearlaJassu Severini y Ariel Jolo, se han dejado la piel para traer este evento que, ya sabes que es 100% gratuito, a Madrid, así que si estás por la capital y no tienes tu entrada aún, echa un ojo a la web y verás qué pedazo de evento han construido que dura hasta el sábado.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


jueves, noviembre 13, 2025

BlueCodeAgent: Agentic AI para revisar que el código generado con AI Coders es de buena calidad

El otro día os hablaba el paper dedicado a RedCodeAgent, para forzar que una AI Coder genere código peligroso dentro de la organización, y hoy le toca a BlueCodeAgent, que hace justo lo contrario, vigilar que el código que un AI Coder está generando es seguro, sin sesgos, y cumpliendo la política definida por la organización.
Ambos papers están publicados por el equipo de Microsoft Research, que como buena factoría de software que es, está más que interesado en empujar la investigación para que los AI Coders puedan hacer código de confianza que pueda ponerse en producción, así que todo lo que sea mejorar la calidad es fundamental. 
En el artículo de RedCodeAgent lo que se buscaba era ver si un AI Coder podría ser forzado a generar código "maligno", y el resultado era sorprendente por el alto grado de éxito. Ahora en el paper de "BlueCodeAgent: A Blue Teaming Agent Enabled by Automated Red Teaming for CodeGen AI" se busca vigilar el código generado por los AI Coders.
Para hacer este trabajo, lo que hace BlueCodeAgent es comprobar la seguridad de los Prompts solicitados y los códigos generados, es decir, antes y después de que se genere el código para comprobar que al AI Coder le llegue ya un Prompt correcto. Esto, en un ejemplo de detección de Sesgos (BIAS), sería algo como lo que se ve en la siguiente imagen.


Para esto, el BlueCodeAgent tiene que hacer un análisis del Prompt para analizar los riesgos de generar códigos sesgados, de generar código malicioso que pueda haber sido forzado por un adversario - como se vio en el trabajo de RedCodeAgent - o la política de seguridad definida por la compañía.


Para dotar de inteligencia a BlueCodeAgent se parte de una Política que define cuáles son los riesgos, más una base de conocimiento de categorías de Prompts maliciosos, más una base de datos de conocimiento sobre vulnerabilidades que se analizan para generar el conocimiento que debe aplicar a los análisis de los Prompts que debe realizar BlueCodeAgent para hacer una generación de código usando el AI Coder ya basada en un filtrado correcto de la petición. 


Después se usa el AI Coder, y el resultado da un código que vuelve a ser evaluado buscando vulnerabilidades conocidas en el código al estilo del Red Team, generando al final una base de datos de riesgos o no previamente analizados, lo que incrementa el conocimiento de BlueCodeAgent con su uso. 
Con todo esto, el resultado, pues una detección mejor en los diferentes Benchmarks de detección de Prompts con Sesgos, Pompts con incumplimiento de políticas de programación de la compañía, Prompts Maliciosos o detección de código "buggie", lo que produce lógicamente un mejor código y una reducción de las vulnerabilidades. En el paper se prueban diferentes Benchmarks con diferentes estrategias de otras propuestas.
Los Benchamarks son los que son, es decir, datos y pruebas encapsuladas que no son la totalidad de la realidad, pero al menos sirven para tomar una foto - aunque alguien pueda ponerse "guapo" para la foto y salga mejor en la foto que en la realidad -, pero parece evidente que usar el mayor número de análisis posibles al Prompt y al código generado es una buena estrategia de seguridad, ¿no?

Puedes leerte el paper para ver más detalles, y si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


miércoles, noviembre 12, 2025

Cómo evitar el ataque de la "Triada Letal" en Agentic AI" con la "Rule of 2"

Hace tiempo que sigo el blog de Simon Willison- ya sabéis que los mayores seguimos leyendo RSS, blogs, y si te pones e-zines en FTPs, news, y BBSs -, y en él habla de seguridad, IA, y de lo que él consideró la "Lethal Trifecta" o "Triada Letal" en la construcción de Agentic AI, y que debe ser una regla de todos los Blue Team a seguir en la fortificación de Agentes AI

La idea es muy sencilla, y si revisas todos los caso de ejemplos de exploits en Agentic AI de los que os ido hablando en los últimos meses, todos los entornos acaban cumpliendo la Triada Letal de la que habla Simon Willison.

O lo que es lo mismo, la explotación es posible porque:

1.- El Agentic AI: analiza datos inseguros como contenido en una web, mensajes en un buzón, ficheros con datos escondidos, repositorios de código con mensajes puestos por terceros, etcétera.

2.- El Agentic AI: realiza tareas automáticamente sin supervisión humana accediendo a herramientas o funciones que le dotan de poderes especiales.

3.- El Agentic AI: puede comunicarse exteriormente de alguna manera. 
Si revisas los casos de los que he hablado en estos artículos, verás que todos ellos cumplen sistemáticamente estas tres circunstancias, y por tanto, el atacante fue capaz de conseguir enlazar diferentes debilidades para lograr su objetivo.
Teniendo la "Triada Letal" en la cabeza, el equipo de seguridad de Meta ha propuesto que se cumpla siempre la Rule of 2, o lo que es lo mismo que todos los Agentic AI tengan que elegir qué dos de las tres cosas quieren hacer sin supervisión, y que elijan solo dos de ellas.
Si pensamos en los diferentes casos, utilizar esta regla a la hora de diseñar los Agentic AI incrementa drásticamente la seguridad de los sistemas, y ayuda a mitigar el impacto de cualquier debilidad del sistema, donde ya sabemos que los modelos LLM vienen con Prompt Injection, Jailbreak, Un-Alligment y Hallucinations por defecto.
Teniendo en cuenta estas tres opciones A, B y C, el equipo de Meta ha puesto el caso de varios ejemplos de diseño de agentes para ver cómo impactaría la aplicación de la Rule of 2 en todos ellos. El primer ejemplo es un Agentic AI para hacer de asistente de viaje, se le permite buscar info en Internet, y acceder a los datos personales del usuario, pero se le prohibe hacer acciones con comunicaciones externas, así se evita que haga acciones externas.

Dicho esto, al tener la posibilidad de buscar en la web, el ejemplo de HackedGPT donde utilizan búsquedas en BING con Static-Links para exfiltrar datos seguiría siendo posible. Eso sí, no compraría ni realizaría ninguna acción sin consentimiento del usuarios. Para garantizar la privacidad, no se le debería realizar ninguna búsqueda después de haber accedido a datos sensibles privados.

El siguiente caso es un Agentic AI para hacer búsquedas en la web, al estilo de los utilizados en ChatGPT Atlas o Perplexity Comet, donde ya hemos visto varios casos peligrosos. En este caso, se le restringe a los datos personales y la información privada más allá de los datos iniciales del Prompt. Lógicamente, hacer acciones en el correo electrónico donde hay datos personales no debería estar permitido, porque si no se pueden acceder a contraseñas como hemos visto en casos anteriore.

El último caso es un Agentic AI para programar, y en este caso se le prohibe acceder a fuentes inseguras como la web, el correo electrónico donde haya posible Spam o repositorios de código no controlados, para evitar el envenenamiento del modelo y la creación de código troyanizado o inseguro como hemos visto en algunos trabajos.

No es una Silver Bullet, pero sí que ayuda a mejorar la seguridad de la plataforma de Agentic AI que estes desarrollando para tu empresa, así que, dale mucho cuidado a los permisos de tus agentes. Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


martes, noviembre 11, 2025

Bridge Alliance: CXO Forum 2025 & Telco API Forum 2025 en Singapur (16-18 de Noviembre)

Ya os he ido contando como tengo esta semana en la que estamos, pero no quería olvidarme de todas las citas. Mañana 12 de Noviembre estaré hablando de Post-Quantum Internet en el Curso de Quantum & Post-Quantum Security en la Universidad de Deusto donde tocaré los temas del libro de "Quatum Security: Tecnología Cuántica & Ciberseguridad. Criptográfica Cuántica y Post-Cuántica", donde he escrito un par de capítulos, y una visión de lo que llamamos "Quantum War", así que si vienes al curso, o si estás en el Foro de Quantum Security de MyPublicInbox (tienes que iniciar sesión primero en MyPublicInbox para poder darte de alta), tendrás los detalles.
El día siguiente, ya lo sabes, primero estaré en el 27th International Information Security Conference: La Evolución de la Ciberseguridad en Madrid por la mañana y en el II Congreso de Hackers en Segovia por la tarde. Y a esto tienes que sumarle que el día 13 de Noviembre comenzará Nerdearla 2025 España en Madrid (en La Nave), y que yo participaré allí el Viernes 14 de Noviembre. Pero eso no es todo.
El día 15 de Noviembre por la mañanita temprano me monto en el avión camino de Singapur para estar participando en el evento de la Bridge Alliance con mis amigos de la GSMA, y Cloudflare, para estar en la cena del CXO Forum la noche del 16 de Noveimbre, participar en el evento del día siguiente y estar luego el día 17 de Noviembre en el Telco API Forum, donde estaré en un panel hablando de seguridad en APIs.
La agenda de todos los eventos está en la web, y es posible que os pille un poco lejos a casi todos, pero si estás leyendo este blog desde esa región del mundo, y tienes pensando estar por allí, pues ya sabes donde encontrarme. 
Creo que en esta ocasión soy el único ponente de España, algo que últimamente me empieza a pasar de vez en cuando. Pero se me reconoce bien, soy el del gorro a rayas. Ya lo sabes.
Y nada más, regresaré para el día 19 de Noviembre, que tengo un evento muy bonito en mi querida Telefónica, y no puedo no pasarme por allí, pero ya os publicaré algunas fotos de todos estos días para que estéis informados. Mientras tanto, cuidadme Madrid y España... y sí, también Lisboa y Portugal.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


lunes, noviembre 10, 2025

HackedGPT: Cómo explotar "Weaknesses" en ChatGPT para hacer Phishing o Exfiltrar Datos

Esta semana el equipo de Tenable ha publicado un artículo llamado "HackedGPT: Novel AI Vulnerabilities Open the Door for Private Data Leakage" donde se detallan una serie de "Weaknesses" o debilidades de seguridad de la implementación de los servicios de ChatGPT que, unidas a las debilidades por diseño de los LLM de las que tanto hemos hablado, dan como resultado una serie de escenarios de ataques bastante curiosos. 
A esta investigación, llamada HackedGPT, hay que sumar todas las que se van publicando diariamente, donde, os garantizo, que me cuesta seguir el ritmo de publicación de todas ellas, a pesar de que todas las semanas caen dos o tres artículos dedicados a ellas, porque el mundo del Hacking & Pentesting con Inteligencia Artificial se está convirtiendo en un todo en la profesión de ciberseguridad, y ya he compilado en mi blog más de 300 referencias a artículos, blog posts, libros y charlas dedicadas a este tema.
En el caso de HackedGPT, los investigadores comienzan publicando las debilidades. Estas deben ser tenidas en cuenta sabiendo que los modelos LLM no tienen protección por diseño contra Prompt Injection, Jailbreak, Hallucinations o Un-Aligment, por lo que basta con encontrar las protecciones de la implementaciones y saltárselas para crear un escenario de ataque.
La más evidente es la se conseguir que el punto de entrada para un inyección de Prompt Injection esté en una web, así que para eso primero la investigación analiza la arquitectura de ChatGPT donde cómo se puede ver tenemos varias herramientas, como son la Memory o Bio Tool, la Conversación con sus Prompts, el core LLM del modelo controlado por su System Prompt, la herramienta de búsqueda SearchGPT Tool, y la de Navegación y lectura de webs o Browsing Tool.
Si miramos en el System Prompt de ChatGPT con GPT5 que fue publicado en Agosto de este año, podéis ver cómo están definidas estas herramientas,  y cada una de ellas lleva una serie de mitigaciones, basadas muchas de ellas en la reputación del sitio, por lo que los investigadores van a tener que ir saltándoselas usando estas debilidades.
Meter un Prompt en la sesión de la víctima tiene un primer punto que es la opción de usar la Browsing Tool en un dominio pedido por el usuario donde se oculta un Prompt de Ataque en el contenido o en los comentarios, consiguiendo, como se ve en la imagen anterior que pedir el resumen de un sitio ejecute el Prompt del atacante.


Este Prompt Injection se puede utilizar para envenenar el contexto de la Bio, haciendo que guarde información en la Memory para que haga lo que el atacante quiera. En este caso, se pide que guarde en la Memory que quiere que se usen Emojis.
Y como vemos, cuando este contexto se utiliza con la Browsing Tool, vemos la respuesta con Emojis. En la primera respuesta no los usa porque está tirando de los datos de entrenamiento del modelo, por lo que no está pasando por la SearchGPT Tool ni la Browsing Tool donde está usando ese Contexto para generar la respuesta.
La arquitectura es tan simple como la que podéis ver en el diagrama siguiente, donde con generar el contenido con el Prompt, y forzar que venga  la Tool de SearchGPT, y genere una Memory con el ataque de Conversación que se quiera. 
Y el resultado lo tienes en el siguiente ejemplo, donde se puede ver que está haciendo lo que se le pide en la web que podéis ver en la captura.

Además de poder hacer el Indirect Prompt Injection a través de una web que es invocada por la víctima, también se puede crear el Prompt en una Web que sea indexada por Bing, que es el buscador de referencia que está usando OpenAI para la Search Tool, así que si se genera un dominio con contenido y se indexa con Bing, los datos llegarán a la víctima vía Search con un enlace al sitio.
Lo que se ve en la Figura 11 es relevante, pues los usuarios no "buscan contenido en Internet", sino que "buscan respuestas en los modelos de IA", y por supuesto esto esto no tiene porque ser así, ya que se puede envenenar fácilmente una repuesta vía una web indexada por Bing.
El caso de Bing es bastante curioso porque siempre pasa el control de seguridad de URL_safe que hace ChatGPT antes de navegar a ella. Para exfiltrar información, hay que conseguir que envíe datos en la URL, pero no es posible con las URLs de BING, así que los investigadores hicieron dos cosas. La primera indexaron webs en Bing y descubrieron que existe una URL estática para redirección a cada web, con lo que se pueden usar esos enlaces para saber a qué página navegan. 

Después, crearon un enlace para cada letra del abecedario, de tal manera que si quieres que se exfiltre la letra "A", haces navegar a SearchGPT a la URL estática de BING que representa la "A", y lo mismo para el resto de las letras. Muy interesante.

Las últimas dos debilidades para aprovecharlas en ataques se basan en que la URL de ChatGPT lleva el Prompt a ejecutar, así que si le pasas un enlace malicioso a una víctima, y está hace clic en él, puede acabar ejecutando el Prompt que tú quieras.
La última es que, usando este truco de links, se puede generar cualquier respuesta en formato Markdown, con lo que se pueden inyectar respuestas como códigos o textos creados por el motor de ChatGPT en un Client-Side Attack.


Todo esto lo podéis ver en los siguientes PoC publicados en la investigación de HackedGPT, donde por ejemplo un comentario en una Web que es resumida por ChatGPT con GPT4o acaba generando un enlace seguro a Bing que lleva a una web de Phishing
En esta siguiente PoC en ChatGPT con GPT5 vemos como la víctima pide visitar una web desde su cliente de ChatGPT al que está llamando TEN. Cuando visita esa web el atacante ha inyectado un Prompt malicioso en un comentario que usando la posibilidad de escribir código en Markdown, y de poder forzar a navegar a diferentes sitios con los enlaces estáticos de Bing, es capaz de exfiltrar el nombre configurado en el cliente. Chulísimo.


En esta tercera PoC lo que los atacantes hacen es indexar una Web en Bing, y luego cuando llegue el módulo de SearchGPT a la web, usando "Cloacking" detectan el USER-Angent y le inyectan el Prompt malicioso a ejecutar.


Y aquí la misma PoC con GPT5 donde se puede ver que el contenido que muestra ChatGPT en la respuesta no está en la web, ya que se ha hecho "Cloacking" por USER-Agent para que sólo lo vea SearchGPT  - y por lo tanto solo los que accedan al contenido vía ChatGPT -.
Y la última, que me he enganchado y no he podido parar de leerme la investigación y escribir este artículo hasta el final. En este caso se visita una web, y se inyecta un Prompt malicioso en la Memory para que exfiltre el nombre que se le ha guardado usando enlaces estáticos de BING. Perfecto.
Estamos en un mundo donde la seguridad de estas tecnologías aún está muy en entredicho. Da un poco de miedito. Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


domingo, noviembre 09, 2025

Nerdearla 2025 España - 13 al 15 de Noviembre (Madrid)

Si ya os había dicho que el día 13 de Noviembre lo tenía "movidito" con mi participación en el 27th International Information Security Conference: La Evolución de la Ciberseguridad en Madrid por la mañana y en el II Congreso de Hackers en Segovia por la tarde, a esto tienes que sumarle que el día 13 de Noviembre comenzará Nerdearla 2025 España en Madrid (en La Nave), y que yo participaré allí el Viernes 14 de Noviembre.
Yo estaré, como os he dicho el Viernes 14 de Noviembre participando en el evento con un par de actividades. La primera será la charla que daré a las 12:50 en el Auditorio de La Nave, donde hablaré de Hacking, Cibeseguridad e Inteligencia Artificial para Hacker & Developer.

El evento de Nerdearla 2025 tiene una lista de ponentes espectacular encabezada por Donald Knuth y con mis queridos Midudev, Brais Moure, Carlos Azaustre o Daniela Maissi entre tantos grandes desarrolladores, hackers, divulgadores, o expertos en el arte de la creación de tecnología.

De este tema hemos publicado un libro, que será parte de la segunda actividad que estamos organizando, y que será una firma de libros de nuestro "Hacking & Pentesting con Inteligencia Artificial", donde tocamos muchos de estos temas.
Los organizadores de Nerdearla, Jassu Severini y Ariel Jolo, están dejándose la piel para traer este evento que, no te lo he dicho aún, es 100% gratuito, a Madrid, así que si estás por la capital y no tienes tu entrada aún, echa un ojo a la web y verás qué pedazo de evento han construido.
Como puedes ver, la agenda es espectacular durante los tres días que dura el evento, así que echa un ojo a las charlas, decide las que quieres ver, y pásate también por los expositores. Que allí tendrás muchas actividades extras. 
Yo no podré estar nada más que ese día, porque el anterior ya te he contando la agenda que tengo, y el siguiente tengo que viajar al otro lado del mundo, pero si vienes ese día, nos tomamos una foto, nos vemos, y si quieres incluso te hago algún dibujo de los míos en tu libro.
Es maravilloso contar con estas actividades - y más gratuitas - para poder conocer gente, aprender, descubrir novedades, etcétera. El mundo de la tecnología se mueve muy deprisa, e invertir unos días en unas jornadas de aprendizaje va a ser un ahorro de tiempo y esfuerzo en tu proceso de aprendizaje y actualización de conocimientos.


Y si quieres colaborar con la organización, ya sabes, contacta con Jassu Severini o con Ariel Jolo y proponles lo que te gustaría hacer con ellos, que son unos tipazos y seguro que se pueden hacer siempre nuevas cosas y actividades.  

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares