viernes, agosto 08, 2025

El “Open” ha vuelto a OpenAI con sus nuevos modelos Open Source

OpenAI nació en 2015 con un mensaje muy potente: “hacer que la inteligencia artificial avanzada beneficie a toda la humanidad” y, sobre todo, que su investigación sería abierta. Aquel manifiesto llevó a muchos especialistas a colaborar con ellos y también provocó millones de dólares en donaciones. No era para menos, la idea de un laboratorio puntero en IA que compartiría cada avance era revolucionario. Pero claro, la realidad fue otra: GPT-2 llegó con pesos recortados, GPT-3 estaba detrás de una API de pago y de GPT-4 ya no sabemos nada desde el punto de vista técnico.

Figura 1: El “Open” ha vuelto a OpenAI con
sus nuevos modelos Open Source


Durante años la palabra open era sólo parte de su nombre, nada más. Pero por fin, el 6 de agosto de 2025 ocurrió algo que ya pensábamos que no pasaría: OpenAI liberó GPT-OSS-120b y GPT-OSS-20b, dos modelos de lenguaje completos, con pesos descargables y licencia Apache 2.0. No es la transparencia total prometida en 2015 (el conjunto de entrenamiento sigue bajo secreto), pero sí el paso más grande hacia el open desde su creación. 
Y, por la calidad de estos modelos, tal vez sea el más importante. Pero vamos a verlos en profundidad porque OpenAI ha publicado detalles muy interesantes de su funcionamiento interno. Y estos modelos son perfectos como base para aplicar lo que puedes aprender con nuestro libro de “Hacking & Pentesting con IA”.

Dos modelos muy potentes

La cifra de 120.000 millones de parámetros no está nada mal pero ya tenemos otros ejemplos que también lo ofrecen. Lo llamativo de GPT-OSS-120b es que, utiliza un diseño tipo Mixture-of-Experts (MoE), que solo mantiene 5,1 mil millones activos durante la inferencia. Cada capa contiene 128 bloques especializados; un router interno que elige cuatro por token, haciendo que el consumo de memoria y computación se reduzca a niveles de un modelo denso mediano, pero guardando una base grande conocimiento.

Figura 3: MoE de DeepSeek

GPT-OSS-20b por otro lado, aplica la técnica a otra escala: 21 mil M totales, 3,6 mil M activos y una ventana de contexto de 128.000 tokens que le permite por ejemplo cargar novelas, manuales técnicos completos o repositorios de código enteros sin mucho esfuerzo. Y todo este potencial cabe en una RTX 4080 con 16 GB de VRAM y responde en segundos (luego lo veremos).

La arquitectura en detalle

Los dos modelos comparten treinta y seis (120b) y veinticuatro (20b) capas Transformer con atención alterna densa/dispersa y codificación posicional rotatoria (RoPE) extendida. El tokenizador o200k_harmony (que viene ya de los modelos propietarios de OpenAI) minimiza la longitud media de token y mantiene la estadística estable incluso cuando el contexto sube a 128 k


Para ahorrar aún más memoria, los pesos están almacenados en una mezcla de BF16, INT8 y un formato propietario de 4 bits (MXFP4). El resultado final es que GPT-OSS-120b puede ejecutarse por completo en una sola GPU H100 (eso sí, prepara algunos ) de 80 GB, algo que hasta ahora era impensable para un modelo de este tamaño.

Pensamiento a demanda

Una innovación que tenemos que destacar es el selector de profundidad de razonamiento. En el mensaje de sistema se indica Low, Medium o High. Con Low el modelo responde de forma directa, priorizando velocidad. Con Medium utiliza una parte de la cadena de pensamiento. Y con High realiza un proceso completo que puede incluir llamadas a un navegador o a un intérprete de Python para verificar datos en tiempo real. Ese digamos switch permite a GPT-OSS desde redactar un tuit en dos segundos o planificar un experimento científico paso a paso, todo según la necesidad del momento.

El repositorio openai/gpt-oss en GitHub trae scripts, plantillas de chat y ejemplos de integración con vLLM, LangChain y una CLI que emula ChatGPT en la terminal. Los checkpoints están en Hugging Face (incluidas versiones cuantizadas a 4 y 5 bits) y pueden cargarse con dos líneas de transformers. 
Y todavía más fácil, sin necesidad de programar, podemos usar Ollama y LM Studio que los podemos usar en minutos desde un chat. En un servidor con una única H100, GPT-OSS-120b genera entre doce y dieciocho tokens por segundo en precisión mixta. Y GPT-OSS-20b, en una RTX 4090, ronda los veinte tokens por segundo, algo más que decente para poder interactuar con los modelos.

Un paso adelante en potencia y transparencia open source

Aunque publicar los pesos no es lo mismo que publicar el dataset ni los parámetros de entrenamiento (OpenAI sigue guardando esos secretos), es una gran aportación al mundo. La disponibilidad de modelos de razonamiento avanzado bajo licencia realmente libre cambia las reglas de juego. Ahora podemos auditar sesgos examinando directamente las matrices, hacer inferencia y fine-tunning sin pagar por token, las startups pueden ofrecer productos basados en GPT-OSS sin temor a litigios de patentes, etc. 

Todo un avance que esperemos no sea el único y sirva de motivación para otras empresas para que empiecen a publicar modelos similares. Así que deja de jugar con tu gráfica y descarga ya el modelo de 20b ;)


Happy Hacking Hackers!!! 

Autor: Fran Ramírez, es investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro "Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)", del libro "Docker: SecDevOps", también de "Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.

 Contactar con Fran Ramírez en MyPublicInbox

 Hackers!!

No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares