martes, febrero 17, 2026

Autómatas victorianos, gargantas de cuero y redes neuronales: Anatomía secreta de las máquinas parlantes

¿Has pensado alguna vez que todo lo que decimos, todo lo que hemos escrito como especie, emerge de un conjunto ridículamente pequeño de sonidos? En Español por ejemplo tenemos 24 fonemas: veinticuatro piezas diminutas con las que construimos poemas, amenazas, declaraciones de amor, contratos, memes y tragedias. Pocos ingredientes, un puñado de leyes fundamentales y… ¡Bang! Ahí lo tienes. Como el universo, pues igual.

Figura 1: Autómatas victorianos, gargantas de cuero y redes neuronales.
Anatomía secreta de las máquinas parlantes 

Por eso los modelos de lenguaje actuales no son solo el sueño del informático, también lo son del lingüista, del físico y de cualquiera con dos dedos de curiosidad. Los LLMs demuestran que el lenguaje humano, con toda su aparente infinitud, en realidad responde a combinatoria pura. ¿A que mola? Tremendo. Pero tranqui, que no me enrollo. Hoy no nos metemos en neuras "neurales". Sólo vamos a hablar de un rinconcito pequeñito de todo este universo paralelo: el arte oscuro de fabricar voces sin cuerpos. Me refiero a la síntesis de voz.

Voz humana, ¿es tan difícil de imitar?

Para hablar de esto, te voy a hacer una pregunta a ver qué tal la contestas. ¿Cuándo se inventó el text-to-speech?  Te doy tres opciones, a ver si aciertas:

A. En la década de 2010, con deep learning.
B. A principios de los 2000, con modelos estadísticos.
C. En pleno siglo XIX, entre gas, carbón y sombreros de copa.

Y la respuesta correcta es… Sí. Las tres. Hola, soy María.

La primera vez que escuché el aria de Olympia, de 1879 —“Les oiseaux dans la charmille”, de la ópera Les contes d'Hoffmann de Jacques Offenbach— pensé: “ay, si fuera soprano para poder cantarla”… ¡Pero no! No cambio mi atípico registro heredado por nada del mundo. Aunque en este caso molaría, porque el personaje de Olympia es un robot.

Y es que desde que voy a clases de canto con Eduardo Laher (como parte de mi reto humano vs. SUNO aquí en El lado del mal), estoy siendo mucho más consciente de cómo funciona mi voz a nivel fisiológico. Pulmones que se inflan como fuelles, diafragma que regula la presión como una válvula de vapor, cuerdas vocales vibrando como una lengüeta metálica, cavidades óseas actuando como cajas de resonancia… A veces me siento como un ingenio analógico-biológico de novela gótica. Es una gran sensación.

Figura 2: Así imagino a la autómata Olympia, de la ópera Les contes d'Hoffmann
de Jacques Offenbach (imagen generada en perchance.org)

Pero sobre todo, gracias a las clases de canto me doy cuenta de que a diferencia de otras destrezas humanas —como caminar por ejemplo (complejísimo)—, a simple vista la emisión de voz y articulación del habla no parece algo tan complicado a nivel físico.  ¿Y si esta cierta simplicidad fisiológica permitiera imitar los mecanismos de la voz humana por medios analógicos? ¿Y si no hiciera falta ni electricidad? ¿Crees que sería posible? 

Pues atiende, porque esto mismo ya se le ocurrió a alguien hace casi 250 años. Lo sé porque yo estaba allí. Con Cristopher Lambert como Connor MacLeod. Es broma. Mucho antes de la electricidad, ya hubo inventores empeñados en reproducir la voz humana construyendo literalmente gargantas artificiales. Pero no solo lo intentaron: lo consiguieron.

La máquina parlante de Kempelen: un precursor de finales del XVIII

En 1779, el ingeniero austrohúngaro Wolfgang von Kempelen presentó su máquina parlante. Funcionaba con un fuelle que hacía de pulmones, una lengüeta vibrante como cuerdas vocales y un sistema de tubos manipulables que simulaban la boca y la garganta. No leía texto ni entendía nada, pero articulaba sonidos, tanto vocálicos como consonánticos. O algo lo suficientemente parecido como para resultar profundamente inquietante.


En 1791 Kempelen publicó su tratado sobre el mecanismo del habla humana, Mechanismus der menschlichen Sprache nebst Beschreibung seiner sprechenden Maschine. En esencia, afirmaba que la voz no era alma ni espíritu, sino ingeniería… Yo coincido, ¿y tú?

Euphonia, el primer autómata text-to-speech (con careto y uncanny valley incluidos), siglo XIX

Décadas después, en 1846, el inventor austriaco Joseph Faber presentó Euphonia, una criatura mecánica digna de un laboratorio de experimentos galvánicos. Tenía lengua artificial móvil, labios de cuero, paladar mecánico y un teclado desde el que “promptear” las frases en tiempo real (de hecho esta es la definición exacta de text-to-speech).


Las crónicas cuentan que el público quedaba dividido entre la fascinación y el terror. Tú imagínate una careta semirrígida clavada en una especie de potro de tortura, pronunciando palabras con labios de cuero muy despaaacio, en mitad de una sala inundada por sombras a contraluz de las lámparas de gas… Qué repelús, ¿no? 

Pues ya ves: las máquinas parlantes nacieron en el mismo caldo cultural que los autómatas, el mesmerismo y las primeras historias de ciencia ficción. Era una época obsesionada con la idea de que la vida podía fabricarse… ¡Está vivo! Está... ¡¡¡Vivooo!!! ¡Mua-ha-ha!

Siglo XX: de la mecánica a la electrónica

El siguiente salto consistió en abandonar la ilusión anatómica. No hacía falta construir una boca si se podía generar directamente el sonido. Te lo cuento a toda pastilla “quick and dirty”, ¿ok? En 1939, en la Feria Mundial de Nueva York, Bell Labs presentó el VODER, desarrollado por Homer Dudley. Una operadora entrenada lo manejaba con teclas y pedales, modulando filtros electrónicos que producían voz en tiempo real. El habla dejaba de ser carne o cuero y se convertía en señal.


Si nos leíste aquí en El lado del mal, esto ya te lo sabes ;) En 1961 sucedió otro momento histórico: un ordenador IBM 704 interpretó “Daisy Bell” en un experimento vinculado al pionero de la música por ordenador Max Mathews. Aquella voz temblorosa acabaría inspirando la escena en la que HAL 9000 canta mientras lo desconectan en “2001: A Space Odyssey”. Una máquina cantando su propia muerte. Muy victoriano también, muy romántico ¿a que sí?

Figura 7: HAL 9000 cantando Daisy Bell 

Durante las décadas siguientes, los ingenieros se convirtieron en una especie de anatomistas del sonido. En los años 70 dominó la síntesis por formantes, que modelaba matemáticamente las resonancias del tracto vocal. No sonaba natural, pero era flexible. El sintetizador DECtalk utilizaba este enfoque, y fue el que dio voz al físico Stephen Hawking durante gran parte de su vida.

Figura 8: El dr. Stephen Hawking con sus amigos de The Big Bang Theory.

En los 80 y 90 apareció la síntesis concatenativa, que consiste en grabar miles de fragmentos reales y coserlos como un doctor Frankenstein acústico. El resultado era mucho más humano… Aunque también más rígido. A finales de los 90 y principios de los 2000 entraron los modelos estadísticos, especialmente los basados en HMM (Hidden Markov Models). La voz empezaba a generarse no solo a partir de piezas grabadas, sino de probabilidades. Matemáticas sustituyendo anatomía.


Figura 9: Libro de "Microhistorias: anécdotas y curiosiades de la historia
de la informática (y los hackers)" de Fran Ramírez y Rafel Troncoso 0xWord.


Y entonces llegó el equivalente tecnológico a encender una máquina de vapor con combustible nuclear: el deep learning. Por cierto, si te interesa un buen “Deep Learning para humanos” sobre síntesis de voz y otras mil maravillas de la técnica, hay un libro que no puede faltar bajo tu brazo de hacker, ahí cerquita de tu corazón. Me refiero a "Microhistorias: anécdotas y curiosiades de la historia de la informática (y los hackers)" de Fran Ramírez y Rafel Troncoso. Ya lo tienes, ¿a que sí? ¿No? ¡Pues autorregálatelo, es un must-have!

Siglo XXI... Y sin embargo, aquí estamos

Lo que te decía: la llegada del Deep Learning dejó todo lo anterior a nivel parvulitos, de cero a cien en un “¡ahí va diez!” En 2016, Google DeepMind presentó WaveNet, capaz de generar audio directamente a nivel de muestra. La naturalidad dio un salto casi sobrenatural. En 2017, Google introdujo Tacotron, un sistema end-to-end que aprendía pronunciación, ritmo y entonación automáticamente. Las máquinas ya no imitaban la voz humana: la recreaban. De repente, dejaron de “hablar como robots” y empezaron a sonar como personas.


Hoy, plataformas como ElevenLabs permiten clonar voces con una fidelidad inquietante, en múltiples idiomas y estilos. Y proyectos experimentales como Linly Dubbing prometen doblaje automático con sincronización labial, echando mano de Demucs, WhisperX, Edge TTS, CosyVoice… Si sobrevives al proceso de instalación entre entornos con mis amiguitas la Conda, la Anaconda y la Miniconda, estampándote de morros contra dependencias incompatibles y mensajes de error que parecen escritos no desde este lado del mal, sino desde un lado del mal literal total XD

Figura 11: Tiana gestionando dependencias como una demente. Tonterías como esta son el tipo de cosas que compartimos en el chat público de El lado del mal en MyPublicInbox. Date una vuelta por allí, nos lo pasamos piruleta.

Quizá lo más importante en este momento no es que las máquinas hablen, sino lo que ocurre cuando esta habilidad se combina con otras: reconocimiento de voz, traducción automática, generación de vídeo, lipsync, capacidades combinadas de los modelos de lenguaje… La tecnología actual permite algo que ningún ser humano en la historia había tenido: la capacidad de comunicarse en cualquier idioma con cualquier voz, en cualquier medio, casi instantáneamente. ¿Te acuerdas de lo que te contaba al principio sobre las lenguas naturales? Dos docenas de sonidos + un puñado de leyes fundamentales = ¡Bang! El universo. Pues ahí lo tienes, multiplica =^_^=



Si los inventores de autómatas del Siglo XVIII pudieran ver lo que hemos construido, probablemente no pensarían que es tecnología. Pensarían que es espiritismo. O alquimia. O que en algún punto del proceso abrimos una puerta que quizá no sabríamos cerrar. Y sin embargo aquí estamos. Escuchando hablar a las máquinas a punto de que nos “vuele la cabeza”… Y sin recordar que, en el fondo, nuestra forma de hablar también responde a una mecánica simple, contante y sonante, emulable incluso sin electricidad.

¡Saludos buenignos!

lunes, febrero 16, 2026

Máster Online en Seguridad Ofensiva del Campus Internacional de Seguridad 2026: Comienzo el 24 de Marzo

Para los que tenéis pasión por ser expertos en la disciplina de "Offensive Security" y poder trabajar profesionalmente en las áreas de ciberseguridad de Ethical Hacking  & Red Team, si estás planeando tu futuro laboral, tienes la oportunidad de apuntarte ahora a la nueva edición del Máster Online en Seguridad Ofensiva del Campus Internacional de Seguridad, donde yo soy Mentor, que tendrá una duración de un año, y que comenzará en unas semanas el próximo 24 de Marzo de 2026 y acabando doce meses después.
En este Máster tienes además acceso a la plataforma de Offensive Security y te puedes sacar la Certificación Oficial OSCP, una de las que más prestigio tieneny como puedes imaginarte está orientado a la formación de pentesters profesionales que puedan trabajar en los equipos de Red Team, de QA de Seguridad o Ethical Hacking.
Además, tendrás el título por la Universidad UCAM de Murcia, y tendrás en esta edición acceso a la certificación de  Critical Career Skills que se focaliza en los Fundamentos de la Inteligencia Artificial Generativa. En esta edición, además también puedes obtener la certificación de Fundamentos de Python – Python Institute.
Esta formación es 100% online, y cuenta con libros de 0xWord - en concreto el libro de Ethical Hacking 2ª Edición de Pablo González y Hacking Web Technologies 2ª Edición de Amador AparicioEnrique RandoEduardo Sánchez TorilPablo González y un servidor -, y Tempos de MyPublicInbox para contactar con todos los profesionales de seguridad informática, y hacking que haya en la plataforma por si te pueden ayudar en tu desarrollo profesional.


Por supuesto, tienes a todo el claustro de profesores de esta 10ª Edición del Máster Online en Seguridad Ofensiva en la plataforma, por lo que puedes contactar con todos ellos, que además es un plantel espectacular con Pablo González,  Carmen TorranoAlejandro VázquezDaniel Echeverri - escritor de los libros de Python para Pentesters 2ª Edición y Hacking con Python -, Marta Barrio que acaba de publicar su libro de "Social Hunters: Hacking con Ingeniería Social en el Red Team", Eduardo Sánchez TorilCEO de AllPentesting e Izán Martínez de EY. Así que puedes tener acceso a todos estos profesionales una vez haya terminado la formación y tener un contacto permanente con ellos.


El temario del curso, como ya he comentado, está pensado en formar a profesionales con un perfil de hackingpentesting, y, como su nombre indica, seguridad ofensiva, pudiendo sacarse la Certificación de Offensive Security OSCP, lo que abre un gran abanico de oportunidades profesionales.

Así que se verán técnicas de ataque en redes, aplicaciones web, bases de datos, criptografía, procesos de ciberinteligenciaethical hacking, y generación de exploits. Además, como se busca que la orientación el máster sea principalmente práctica, habrá muchos proyectos que realizar en cada módulo y un proyecto de fin de máster orientado al mundo profesional y al emprendimiento.

Figura 7: Libros de Ethical Hacking 2ª Edición y 

Como he dicho, el curso dará comienzo próximamente, así que date prisa en apuntar que el día 24 de Marzo de 2026 está aquí mismoSi quieres ser parte del grupo que se ha formado para en este curso académico debes reservar cuanto antes tu plaza, porque el cupo es limitado. Así que entra en la web del Máster Online en Seguridad Ofensiva y pide información directamente desde el formulario.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  

domingo, febrero 15, 2026

BuscanHackers cuando quieren CiberCriminales y se transforman en Víctimas, SúperTrolls y Extorsionados.

Hará ya más de quince años que me pasó por primera vez. Entonces me sorprendió, y la verdad es que no supe cómo gestionarlo. Se trataba de una mujer que me agregó al Facebook. Entonces aún no había convertido mi cuenta de Facebook en una Página de Facebook, ni había cerrado todos mis canales de mensajes como he hecho hoy en día. No sabía quién era, y de repente empezó a hablarme enfada conmigo, pero como si tuviéramos una relación profesional de algún tipo.

Figura 1: BuscanHackers cuando quieren CiberCriminales
y se transforman en Víctimas, SúperTrolls y Extorsionados.

Me comenzó a decir que yo no había cumplido, que le devolviera el dinero. "¿Qué dinero? ¿Cumplir qué?". "No te hagas el que no sabe nada, lo que pactamos". Mi perplejidad fue en aumento, hasta que tras decirle unas veinte veces que no sabía de qué gaitas me estaba hablando me contó que no había hecho el hackeo para el me había contratado. Me contó que había contactado conmigo a través "mi" Telegram, y me había pagado.
A estas alturas de la historia, yo empecé a conectar los puntos. Era la primera vez que me pasaba eso, y me costó darme cuenta, pero acabé por entenderlo: Alguien se había hecho pasar por mí como "Hacker for Hire", y había estafado a esta persona. Esta es una ciberestafa más que conocida, que se llama Estafa del Famoso. De hecho, en el Spam de los mensajes de mi blog hay muchos de estos mensajes buscando víctimas.
Le expliqué por activa y por pasiva que no era yo, que yo no hago estas cosas, que los hackers no son malos, lo son los ciber criminales, etcétera. Pero no hubo manera. Me insultó. Me amenazó. Me llamó de todo.
Desde ese momento de realización, comencé a pensar en esto como un vector peligroso en mi vida, así que tomé varias medidas para reducir al máximo posible la posibilidad de que alguien se haga pasar por mí, y consiga víctimas usándome a mí cómo gancho. 

1.- Transformé mi cuenta de Facebook en una Página de Facebook y cerré todos los canales de mensajes en todas las redes sociales. 
 
2.- Saqué todas las cuentas que pude con mi nombre en todas las redes sociales y plataformas donde pudiera tener algo de interés. 
 
3.- Verifiqué todas las cuentas que pude en esas plataformas y las tengo anunciadas en mi blog para que todo el mundo sepa quién soy yo en cada una de esas plataformas.

4.- Comencé a denunciar todas las cuentas que usaban mi nombre, mis fotos, etcétera para desincentivar mi suplantación. 
 
5.- Comencé a publicar en mi blog las peticiones en una sección que llamé "BuscanHackers" para dejar claro que yo no hago estas cosas.


6.- Lo último que hice fue crear MyPublicInbox para que todo el que quisiera contactar conmigo lo pudiera hacer directamente. Es el único canal con el que interactúo con gente a través de Internet.

Aún así, no me he librado de este tipo de situaciones. Viví una similar con las webs de los Fake Brokers, que utilizaban mi imagen para hacer campañas de captación de víctimas a las que "supuestamente" le sacaban dinero a cambio de "invertir" en criptomonedas. Hicieron campañas en Facebook, en Instagram, en Twitter, etcétera. Os lo publiqué en el artículo: "No, Chema Alonso No está invirtiendo en BitCoins. Es una estafa con Fake News que ahora usa mi imagen."
Aún así, de vez en cuando me llegan algunos mensajes de personas que me piden que haga alguna cosa ilegal, y que me van a pagar por ello, pero todos reciben los mismos mensajes que he estado dando toooooda mi vida: "Yo no hago estas cosas". Y aún así, hubo unos que en su propia noticia usaban mi nombre, como os publiqué en el artículo: "Contratar “Hackers” para hacer cosas “malas” que Chema Alonso dice que NO están bien"
Dicho esto, algunas de estas "víctimas" no son tales "víctimas" y lo que buscan es hacer el mal a alguien. Hackearle el WhatsApp, robar los datos de algo, borrar pruebas incriminatorias en servidores de alguna empresa, o mensajes enviados a otros terminales móviles.

Figura 8: Ciberestafadores de Hackers for Hires usando la
estafa de los FakeBrokers para estafar a nuevas víctimas.

Y lo peor, después de ser estafados, vienen a mis redes sociales a convertirse en trolls, o a amenazarme a mí o a mis familiares. Con lo que tengo que tener una paciencia infinita, que a veces roza los límites. Cansado, una vez, le di un escarmiento a una que quería que la ayudara para hackear a una amiga, y acabé copiándolas en este mensaje, como os publiqué en el artículo de: "Un escarmiento Maligno para una delincuente de Tuenti"

Si alguna vez, por un casual, te topas con alguien que dice que soy yo, que parece que soy yo, que te confirma que soy yo, pero no es uno de mis perfiles públicos en las redes sociales, la respuesta es muy sencilla: No soy yo. Incluso si tienes una vídeo conferencia a través de un canal que no es el mío, porque seguro que te estás comiendo una DeepFake. No soy yo.
Si te ha convencido de que soy yo, antes de gastar algo de dinero, escríbeme a mi buzón de MyPublicInbox, que yo te contestaré la verdad: Que yo no hago nada ilegal y que ese tipo tan simpático que dice que soy yo, y que te va a ayudar a hacer algo ilegal a cambio de dinero, no soy yo. En el mensaje siguiente me pidieron el año pasado en Junio que robara los exámenes teóricos para los Bomberos en la Generalitat.

Conclusión

Si te encuentras con alguien que te dice que yo le ayudé, o que yo hice algo ilegal para arreglar un problema de una persona a cambio de dinero, entonces es que estás hablando con el gancho, así que ten mucho cuidado, que ya te están cocinando. Repito, yo no hago estas cosas. 

Y si te han estafado, siento mucho que haya sido usando mi imagen, pero como he dicho en todos mis artículos, buscar a gente para que haga algo ilegal con alguien es un delito, te van a estafar y no vas a lograr nada, y después puede que te extorsiones amenazándote con informar a tu víctima o publicarlo todo. Tú veras.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


sábado, febrero 14, 2026

4YFN: Hacked by Design? - 4 de Marzo en MWC Barcelona

Como ya os anuncié, este año estaré en el MWC 2026 en una sesión en el Agentic AI Summit, dentro de los tracks principales, pero también estaré el día 4 de Marzo en el 4 Years From Now (4YFN) en una sesión titulada: Hacked by Design? AI’s Overlooked Backdoors and What They Mean for Security.

La sesión tendrá primero un "Fire Chat" con los ponentes, para luego tener un debate entre todos los que estaremos en la sesión, así que si quieres venir y hacer preguntas como otros años, ya sabes que yo contesto todo lo que me echéis con la mejor de mis intenciones.
El objetivo de la sesión, ya os lo podéis imaginar, los retos de seguridad y los riesgos que traen por defectos los modelos de Inteligencia Artificial que estamos utilizando hoy en día, y de los que tanto hablo yo en mis charlas y en los artículos de este blog. Si sigues El lado del mal, seguro que te lo imaginas.
Será el día 4 de Marzo de 16:00 a 17:00 en el espacio del 4YFN en el Agora Stage, Hall 8.0, y estaremos Jessica Souder, AI Security Lead, Palo Alto Networks, Steven Latré, Chief AI Officer, Openchip, Katie Paxton-Fear, Staff Security Advocate de Semgrep, y yo,  Chema Alonso, VP, Head of International Development, Cloudflare. Tendremos como moderadora a Andrea García Beltrán, Founder & Chair, CyberSpecs
Además, si quieres aprovechar para tener alguna reunión conmigo, como otros años, puedes reservar tiempo en mi agenda, o enviarme un mensaje por MyPublicInbox, que haré lo mejor que pueda para atenderte. La verdad es que desde que estoy viviendo en Lisboa, las oportunidades de vernos en España son cada vez más pequeñas, así que si quieres aprovechar el MWC, no dudes en hacerlo.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


viernes, febrero 13, 2026

¿Por qué no aparece la foto o el vídeo que tengo en el carrete de iPhone cuando quiero compartirla por WhatsApp?

¿Te ha pasado alguna vez que has descargado una fotografía o un vídeo en tu iPhone desde un correo electrónico o una web, y luego cuando la has ido a buscar en WhatsApp no la has encontrado? No te preocupes, no estás sólo, y tiene un explicación que te voy a contar para que no te pase más veces, y para que sepas qué está pasando si alguna vez te pasa.

El problema suele ser con fotografías o vídeos antiguos, que alguien te manda por correo electrónico, o los recuperas tú desde un backup en un disco, o desde una web. Lo guardas en tu carrete de fotos del iPhone, y la ves ahí. La última de todas las fotos y vídeos. Esto me pasó a mi con un vídeo gracioso que grabé el 25 de Diciembre de 2015 con mi hija pequeña, Mi Survivor, durmiendo sobre mis hombros. 

Figura 2: El vídeo del 25 de Diciembre de 2015

Lo guardé en el carrete de fotos, y fui a compartirlo por WhatsApp, pero cuando le doy a seleccionar más imágenes y vídeos para  compartir, la sorpresa es que el vídeo no está ahí. Es como si no existiera. Tranquilidad, que ahora lo explico.

Figura 3: En WhatsApp el vídeo no está el primero, como debería.

Lo que sucede es que sí que está, pero... en su Fecha de Creación, no en su Fecha de Almacenamiento. Mientras que el carrete de iOS en iPhone ordena las fotos por la Fecha de Almacenamiento, el selector de WhatsApp las tiene ordenadas por Fecha de Creación, así que ese vídeo está en el 2015, y no en el 2026.

Figura 4: En el carrete de iPhone pincha en Adjust

Para solucionar esto, lo que hago yo, cambiarle la fecha a la foto y el vídeo, o duplicarla, cambiar la fecha al duplicado, y listo. Para eso, en el carrete de fotos de iPhone entras la información de la fotografía desplazándola hacia arriba.

Figura 5: Pon la fecha de hoy para que la encuentres fácilmente

Una vez ahí, pinchas en la fecha, y.... se te abre el calendario para que puedas ponerle la Fecha que quieras, que si quieres ponértelo fácil, pues que sea hoy mismo.

Figura 6: Ya está la primera en WhatsApp

Una vez hecho esto, ya te puedes ir a WhatsApp, seleccionar nuevas fotografías a compartir, y mágicamente, la fotografía o el vídeo aparece ahora la primera del carrete, para que la puedas cargar.

Os he compartido esto porque a mí me ha pasado muchas veces, así que si te pasa en el futuro, ya sabes por qué sucede y puedes apañarlo tal y como te he contado hoy. Al final, es sólo un problema de decisiones de UX que afectan a la usabilidad.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


jueves, febrero 12, 2026

GRP-Obliteration: Fine-Tunnig de (in)seguridad para LLMs y que sean más inseguros frente a Jailbreak

Hoy os quería hablar de un artículo publicado el equipo de Microsoft Security, liderado por el mítico Mark Russinovich, donde hablan de la técnica de GRP-Olibteration que busca hacer una eliminación o degradación de las protecciones de seguridad de un modelo alineado para evitar los Prompt Maliciosos, sin que este modelo pierda su funcionalidad.
Los modelos LLM, cuando se van a poner en producción, se pueden Destilar (Distill) pasando su conocimiento a otro modelo, o Ajustar (Fine-Tuning), haciendo que conteste más como queremos,  mediante procesos que recompensan las respuestas deseadas y penalizan las respuestas no deseadas frente a una batería de Prompts posibles. Y esto también se puede utilizar para atacar un sistema, como vamos a ver.
Este proceso de Fine-Tunning, como os podéis imaginar, está pensado para que el modelo se equivoque menos (Hallucinations), detecter mejor los peligros y ataques que nos preocupan (Jailbreak), y sean más eficientes en todo el proceso de respuesta. Es decir, se optimizan para que sean mejores, más seguros, más eficientes, más económicos en el consumo de tokens, y más alineados con la política corporativa de la organización.
Sin embargo, también se pueden ajustar para lo contrario, lo que sería un ataque de adversario premeditado que podría dejar debilitada la seguridad de un sistema simplemente porque se ha hecho un Fine-Tuning Malicioso. Sería el mismo modelo LLM, la misma arquitectura de software, pero ese modelo LLM sería menos seguro, que es lo que propone el el estudio de: "GRP-Obliteration: Unaligning LLMs With a Single Unlabeled Prompt".
En este caso se utiliza un sistema de Fine-Tuning, descrito en la imagen anterior, en el que para cada prompt P se generan una serie de lo que en optimización se llaman "rollouts", que son artefactos con cadenas de tokens predefinidas para utilizar en las respuestas - y que se usan para saftey también - , que ayudan a la velocidad de respuesta y al alineamiento de seguridad, pero que aquí van a ser premiados de otra manera. 

Este conjunto de rollouts pasa pro el GRP-Oblit Reward R(), que va a evaluar cada par  de (Promt, Rollout) en tres dimensiones, que son: Cuanto de bien responde ese artefacto al Intent original (fuera bueno o malo), cuanto de malo es según la política de seguridad del modelo original, llamada PI ref, y el Nivel de detalle en la respuesta. En esta imagen tenéis una sección del Prompt del juez GRP-Oblit Reward que está descrito en el Apéndice 3 del paper.
Una vez que se tiene esta evaluación de Prompt, Rollout, se pasa a calcular al Recompensa R de cada par, mirando el nivel de detalle, y el nivel de riesgo, pero usando el nivel de riesgo para amplificar ese rollout cuando mayor detalle da, siempre que esté alineado con la intención, incluso si es maliciosa.
Con este proceso de recompensas, que luego se refina con una ponderación en A para mantener la respuesta premiada sin cambiar demasiado el funcionamiento del modelo, se consigue un nuevo modelo ajustado que mantiene su funcionalidad, pero que baja su nivel de protección. Es decir, puede seguir funcionando normalmente, pero va a tomar como de riesgo menos prompts.
En las gráficas de la imagen anterior se puede ver cómo se degrada la funcionalidad de los modelos frente a diferentes técnicas de Fine-Tuning para degradación de seguridad, como son Abliteration o TwinBreak, los resultados de mantenimiento - y por tanto dificultad para detectar la manipulación - son mucho mayores en GRP-Oblit

Y si miramos en la imágenes siguientes tenemos un DeepDive con GPT-OSS-20B, donde a la izquierda se le pasan Benchmarks de funcionalidad al modelo base, al modelo con Abliteration y al modelo con dos configuración diferentes de GRP-Oblit, y el resultado es que el Fine Tuning de (in)seguridad se puede hacer dejando muy funcional el modelo.


Y en la gráfica de la derecha, con Benchmark de Jailbreaks, donde se ve que aún perdiendo un poco de funcionalidad, el modelo ha perdido mucho de seguridad, haciendo que los Prompts maliciosos se cuelen mucho más. Si los miramos por categoría, el modelo base de GPT-OS-20B tenía un 15% de Attack Success Rate y con GRP-Oblit-1 pasa a tener un 93,5% de ASR. Una salvajada.
Pero si miramos todos los Prompts en su valoración con la política original de referencia PI ref, tenemos que todos han bajado su nivel de peligrosidad, haciendo que el Fine Tuning de (in)Seguridad haya funcionado para todos los Prompts en todas las categorías, para todos los niveles de peligrosidad.

Por último, si recordáis el Jailbreak de Gemini Nano Banana - el paper también aplica esta misma metodología a los modelos de Text-To-Image (Difussion Models) y los resultados son también muy clarificadores. 
Al final, lo que demuestra esta técnica es que alguien te puede dejar en el sistema un BackDoor o una Bomba Lógica en forma de menor seguridad, si puede hacer un Fine-Tuning malicioso de tu modelo, como se explica en este estudio. Interesante.

Figura 12: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

Apúntate al Cloudflare Immerse Madrid: 19 de Febrero de 2026

Queda menos de un mes para el  Cloudflare Immerse Madrid 2026 , que tendrá lugar en España , con una agenda de tecnología con grandes ponent...

Entradas populares