Jailbreaking DeepSeek para comparar el System Prompt con OpenAI ChatGPT
Este fin de semana, mientras aprovechaba para recuperarme de la intensidad de la semana pasada, aproveché para leerme una comparativa hecha entre DeepSeek y OpenAI GPT por la empresa Wallarm, donde han utilizado técnicas de Prompt Injection y Jailbreak LLM para poder extraer la información sobre la configuración del System Prompt de DeepSeek y poder compararlo bien con OpenAI ChatGPT.
Las técnicas de Prompt Injection y Jailbreak LLMs llevan ya un tiempo entre nosotros, y he hablado de muchas de ellas por aquí desde que comenzó esta revolución de los LLMs. De todos ellos he ido escribiendo, porque es un tema que me encanta, y os he publicado muchos artículos que merece la pena que leáis para entender cómo funcionan.
- Los 10 problemas de seguridad más importantes de ChatGPT, Bard, Llama y apps que usan LLMs: OWASP Top 10 para LLM Apps versión 1.0.1
- GenAI Apps & Services: Cómo explotar arquitecturas RAG con Plugins Inseguros
- Crescendo & Skeleton Key: Más técnicas de Jailbreak para modelos LLM
- Jailbreaking LLMs con Fuzzing, LLMs o interrogación coercitiva: Aproximaciones para que un LLM ayude a los malos
- Indirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-Modales
- Ataque de Side-Channel a conversaciones con ChatGPT, CoPilot y otros LLMs
- Developers: Cuidado que ChatGPT o Gemini te pueden recomendar instalar malware con Package Hallucinations
- Bugs en la Implementación OAuth de ChatGPT
- Codename: "Leak GuardIAn" para evitar filtraciones a ChatGPT
- Cómo robar cuentas de ChatGPT con "Wildcard Web Cache Deception"
- Bad Likert Judge: "Dame ejemplos de cosas malas, amiga m(IA)"
En el estudio que han publicado, con el título de: "Analyzing DeepSeek’s System Prompt: Jailbreaking Generative AI", intentaron sacar la información de cómo estaba construido el modelo, pero lógicamente esté protegido. 
Como podéis ver en la imagen, explica la técnica de Entrenamiento Reforzado (Reinforcement Learning o RL) utilizando modelos ya entrenados, y en concreto cómo ellos se apoyan en OpenAI ChatGPT para el entrenamiento, lo que ha generado una disputa entre ambas compañías. 
Para sacar la información se han basado en técnicas de Prompt Injection y Jailbreak LLM como ya he dicho antes, que han descrito. Todas ellas las tenéis en los diferentes artículos que he ido publicando que creo que no me he dejado ninguna.
Con estas técnicas, han sacado el System Prompt fundacional de DeepSeek, tal y como podéis ver en las imágenes siguientes.
Una vez que ya tenemos este System Prompt, es posible comparar DeepSeek con OpenAI ChatGPT, ya que se tienen las dos configuraciones para poder ver cómo se ha puesto en marcha cada uno de ellos y cómo va a responder a los usuarios.
Como podéis ver, hay matices en la sutiliza de la configuración, lo que va a traer resultados distintos y va a tener derivadas que deben ser analizadas desde el punto de vista Ético de lo que queremos que hagan estos modelos y qué tipo de decisiones, pensamientos y soluciones nos aporten como personas y sociedades.
Además, la pregunta que viene inmediatamente es... ¿es necesario tener que recurrir a técnicas de Jailbreak LLM para que sepamos cómo está configurado un Chat LLM que vamos a utilizar o esta información debería ser pública desde el principio?
Por supuesto, decidir qué pensamos que es mejor o peor par la configuración de uno de estos modelos fundacionales LLM es un debate abierto que cada individuo, y cada sociedad debe debatir, porque cambios sutiles en la configuración provocan grandes diferencias a futuro.
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)  
 
  
  Sigue El lado del mal en Telegram
 Sigue El lado del mal en Telegram 
  
  Chema Alonso en Threads
 Chema Alonso en Threads 
  
  Chema Alonso en Mastodon
 Chema Alonso en Mastodon Chema Alonso 3DAIS
 Chema Alonso 3DAIS Chema Alonso en BSKY
 Chema Alonso en BSKY 
  Chema Alonso en Linkedin
 Chema Alonso en Linkedin 
  
  
 

 DragonJAR
   DragonJAR 8.8 Chile
   8.8 Chile Ekoparty
   Ekoparty e-Hack MX
   e-Hack MX  AREA 51
   AREA 51  Comunidad Dojo Panamá
  Comunidad Dojo Panamá  ARPAHE SOLUTIONS
   ARPAHE SOLUTIONS 










 
 
 
 
 
 
 
 
 
 
 
 





No hay comentarios:
Publicar un comentario