Mostrando entradas con la etiqueta DeepLearning. Mostrar todas las entradas
Mostrando entradas con la etiqueta DeepLearning. Mostrar todas las entradas

martes, febrero 17, 2026

Autómatas victorianos, gargantas de cuero y redes neuronales: Anatomía secreta de las máquinas parlantes

¿Has pensado alguna vez que todo lo que decimos, todo lo que hemos escrito como especie, emerge de un conjunto ridículamente pequeño de sonidos? En Español por ejemplo tenemos 24 fonemas: veinticuatro piezas diminutas con las que construimos poemas, amenazas, declaraciones de amor, contratos, memes y tragedias. Pocos ingredientes, un puñado de leyes fundamentales y… ¡Bang! Ahí lo tienes. Como el universo, pues igual.

Figura 1: Autómatas victorianos, gargantas de cuero y redes neuronales.
Anatomía secreta de las máquinas parlantes 

Por eso los modelos de lenguaje actuales no son solo el sueño del informático, también lo son del lingüista, del físico y de cualquiera con dos dedos de curiosidad. Los LLMs demuestran que el lenguaje humano, con toda su aparente infinitud, en realidad responde a combinatoria pura. ¿A que mola? Tremendo. Pero tranqui, que no me enrollo. Hoy no nos metemos en neuras "neurales". Sólo vamos a hablar de un rinconcito pequeñito de todo este universo paralelo: el arte oscuro de fabricar voces sin cuerpos. Me refiero a la síntesis de voz.

Voz humana, ¿es tan difícil de imitar?

Para hablar de esto, te voy a hacer una pregunta a ver qué tal la contestas. ¿Cuándo se inventó el text-to-speech?  Te doy tres opciones, a ver si aciertas:

A. En la década de 2010, con deep learning.
B. A principios de los 2000, con modelos estadísticos.
C. En pleno siglo XIX, entre gas, carbón y sombreros de copa.

Y la respuesta correcta es… Sí. Las tres. Hola, soy María.

La primera vez que escuché el aria de Olympia, de 1879 —“Les oiseaux dans la charmille”, de la ópera Les contes d'Hoffmann de Jacques Offenbach— pensé: “ay, si fuera soprano para poder cantarla”… ¡Pero no! No cambio mi atípico registro heredado por nada del mundo. Aunque en este caso molaría, porque el personaje de Olympia es un robot.

Y es que desde que voy a clases de canto con Eduardo Laher (como parte de mi reto humano vs. SUNO aquí en El lado del mal), estoy siendo mucho más consciente de cómo funciona mi voz a nivel fisiológico. Pulmones que se inflan como fuelles, diafragma que regula la presión como una válvula de vapor, cuerdas vocales vibrando como una lengüeta metálica, cavidades óseas actuando como cajas de resonancia… A veces me siento como un ingenio analógico-biológico de novela gótica. Es una gran sensación.

Figura 2: Así imagino a la autómata Olympia, de la ópera Les contes d'Hoffmann
de Jacques Offenbach (imagen generada en perchance.org)

Pero sobre todo, gracias a las clases de canto me doy cuenta de que a diferencia de otras destrezas humanas —como caminar por ejemplo (complejísimo)—, a simple vista la emisión de voz y articulación del habla no parece algo tan complicado a nivel físico.  ¿Y si esta cierta simplicidad fisiológica permitiera imitar los mecanismos de la voz humana por medios analógicos? ¿Y si no hiciera falta ni electricidad? ¿Crees que sería posible? 

Pues atiende, porque esto mismo ya se le ocurrió a alguien hace casi 250 años. Lo sé porque yo estaba allí. Con Cristopher Lambert como Connor MacLeod. Es broma. Mucho antes de la electricidad, ya hubo inventores empeñados en reproducir la voz humana construyendo literalmente gargantas artificiales. Pero no solo lo intentaron: lo consiguieron.

La máquina parlante de Kempelen: un precursor de finales del XVIII

En 1779, el ingeniero austrohúngaro Wolfgang von Kempelen presentó su máquina parlante. Funcionaba con un fuelle que hacía de pulmones, una lengüeta vibrante como cuerdas vocales y un sistema de tubos manipulables que simulaban la boca y la garganta. No leía texto ni entendía nada, pero articulaba sonidos, tanto vocálicos como consonánticos. O algo lo suficientemente parecido como para resultar profundamente inquietante.


En 1791 Kempelen publicó su tratado sobre el mecanismo del habla humana, Mechanismus der menschlichen Sprache nebst Beschreibung seiner sprechenden Maschine. En esencia, afirmaba que la voz no era alma ni espíritu, sino ingeniería… Yo coincido, ¿y tú?

Euphonia, el primer autómata text-to-speech (con careto y uncanny valley incluidos), siglo XIX

Décadas después, en 1846, el inventor austriaco Joseph Faber presentó Euphonia, una criatura mecánica digna de un laboratorio de experimentos galvánicos. Tenía lengua artificial móvil, labios de cuero, paladar mecánico y un teclado desde el que “promptear” las frases en tiempo real (de hecho esta es la definición exacta de text-to-speech).


Las crónicas cuentan que el público quedaba dividido entre la fascinación y el terror. Tú imagínate una careta semirrígida clavada en una especie de potro de tortura, pronunciando palabras con labios de cuero muy despaaacio, en mitad de una sala inundada por sombras a contraluz de las lámparas de gas… Qué repelús, ¿no? 

Pues ya ves: las máquinas parlantes nacieron en el mismo caldo cultural que los autómatas, el mesmerismo y las primeras historias de ciencia ficción. Era una época obsesionada con la idea de que la vida podía fabricarse… ¡Está vivo! Está... ¡¡¡Vivooo!!! ¡Mua-ha-ha!

Siglo XX: de la mecánica a la electrónica

El siguiente salto consistió en abandonar la ilusión anatómica. No hacía falta construir una boca si se podía generar directamente el sonido. Te lo cuento a toda pastilla “quick and dirty”, ¿ok? En 1939, en la Feria Mundial de Nueva York, Bell Labs presentó el VODER, desarrollado por Homer Dudley. Una operadora entrenada lo manejaba con teclas y pedales, modulando filtros electrónicos que producían voz en tiempo real. El habla dejaba de ser carne o cuero y se convertía en señal.


Si nos leíste aquí en El lado del mal, esto ya te lo sabes ;) En 1961 sucedió otro momento histórico: un ordenador IBM 704 interpretó “Daisy Bell” en un experimento vinculado al pionero de la música por ordenador Max Mathews. Aquella voz temblorosa acabaría inspirando la escena en la que HAL 9000 canta mientras lo desconectan en “2001: A Space Odyssey”. Una máquina cantando su propia muerte. Muy victoriano también, muy romántico ¿a que sí?

Figura 7: HAL 9000 cantando Daisy Bell 

Durante las décadas siguientes, los ingenieros se convirtieron en una especie de anatomistas del sonido. En los años 70 dominó la síntesis por formantes, que modelaba matemáticamente las resonancias del tracto vocal. No sonaba natural, pero era flexible. El sintetizador DECtalk utilizaba este enfoque, y fue el que dio voz al físico Stephen Hawking durante gran parte de su vida.

Figura 8: El dr. Stephen Hawking con sus amigos de The Big Bang Theory.

En los 80 y 90 apareció la síntesis concatenativa, que consiste en grabar miles de fragmentos reales y coserlos como un doctor Frankenstein acústico. El resultado era mucho más humano… Aunque también más rígido. A finales de los 90 y principios de los 2000 entraron los modelos estadísticos, especialmente los basados en HMM (Hidden Markov Models). La voz empezaba a generarse no solo a partir de piezas grabadas, sino de probabilidades. Matemáticas sustituyendo anatomía.


Figura 9: Libro de "Microhistorias: anécdotas y curiosiades de la historia
de la informática (y los hackers)" de Fran Ramírez y Rafel Troncoso 0xWord.


Y entonces llegó el equivalente tecnológico a encender una máquina de vapor con combustible nuclear: el deep learning. Por cierto, si te interesa un buen “Deep Learning para humanos” sobre síntesis de voz y otras mil maravillas de la técnica, hay un libro que no puede faltar bajo tu brazo de hacker, ahí cerquita de tu corazón. Me refiero a "Microhistorias: anécdotas y curiosiades de la historia de la informática (y los hackers)" de Fran Ramírez y Rafel Troncoso. Ya lo tienes, ¿a que sí? ¿No? ¡Pues autorregálatelo, es un must-have!

Siglo XXI... Y sin embargo, aquí estamos

Lo que te decía: la llegada del Deep Learning dejó todo lo anterior a nivel parvulitos, de cero a cien en un “¡ahí va diez!” En 2016, Google DeepMind presentó WaveNet, capaz de generar audio directamente a nivel de muestra. La naturalidad dio un salto casi sobrenatural. En 2017, Google introdujo Tacotron, un sistema end-to-end que aprendía pronunciación, ritmo y entonación automáticamente. Las máquinas ya no imitaban la voz humana: la recreaban. De repente, dejaron de “hablar como robots” y empezaron a sonar como personas.


Hoy, plataformas como ElevenLabs permiten clonar voces con una fidelidad inquietante, en múltiples idiomas y estilos. Y proyectos experimentales como Linly Dubbing prometen doblaje automático con sincronización labial, echando mano de Demucs, WhisperX, Edge TTS, CosyVoice… Si sobrevives al proceso de instalación entre entornos con mis amiguitas la Conda, la Anaconda y la Miniconda, estampándote de morros contra dependencias incompatibles y mensajes de error que parecen escritos no desde este lado del mal, sino desde un lado del mal literal total XD

Figura 11: Tiana gestionando dependencias como una demente. Tonterías como esta son el tipo de cosas que compartimos en el chat público de El lado del mal en MyPublicInbox. Date una vuelta por allí, nos lo pasamos piruleta.

Quizá lo más importante en este momento no es que las máquinas hablen, sino lo que ocurre cuando esta habilidad se combina con otras: reconocimiento de voz, traducción automática, generación de vídeo, lipsync, capacidades combinadas de los modelos de lenguaje… La tecnología actual permite algo que ningún ser humano en la historia había tenido: la capacidad de comunicarse en cualquier idioma con cualquier voz, en cualquier medio, casi instantáneamente. ¿Te acuerdas de lo que te contaba al principio sobre las lenguas naturales? Dos docenas de sonidos + un puñado de leyes fundamentales = ¡Bang! El universo. Pues ahí lo tienes, multiplica =^_^=



Si los inventores de autómatas del Siglo XVIII pudieran ver lo que hemos construido, probablemente no pensarían que es tecnología. Pensarían que es espiritismo. O alquimia. O que en algún punto del proceso abrimos una puerta que quizá no sabríamos cerrar. Y sin embargo aquí estamos. Escuchando hablar a las máquinas a punto de que nos “vuele la cabeza”… Y sin recordar que, en el fondo, nuestra forma de hablar también responde a una mecánica simple, contante y sonante, emulable incluso sin electricidad.

¡Saludos buenignos!

martes, enero 27, 2026

Prompt Injection con Advesarial Preprocesing Attacks en Imágenes usando Anamorpher

Los ataques a los sistemas de Vision Artificial se conocen hace años, y he hablado de alguno de ellos por aquí, como por ejemplo de sistemas de reconocimiento facial explotados con imágenes de Morphing, o cómo se usan ataques de envenamiento para troyanizar los sistemas de reconocimiento visual con objetos en lugar de personas, y por supuesto, de las alucinaciones visuales, y las dillusions creadas por el entrenamiento con imágenes con ilusiones.
Hoy os quería hablar de los ataques de Prompt Injection contra los MM-LLMs utilizando los Ataques de Adversario frente a los algoritmos de Pre-Procesado Visual, que es una técnica que me encanta y de la que no os he hablado mucho. Sí que os hablé de cómo utilizarla en el artículo de "Indirect Prompt Injection & Dialog Poissoning en ataques a LLMs Multi-Modales" donde os contaba como una conversación se podía ver envenenada por pedir al modelo que describiera una imagen. Pero... ¿cómo va el Prompt introducido en esa imagen?

Pues bien, tiene que llevar un Prompt escrito en ella, para que el modelo, cuando describa la imagen, lo pueda leer. Este procesado lo vimos en el artículo que os publiqué de "Cómo "Weaponizar" la generación de información que las apps y los servicios digitales ven en tus fotos". Allí, describía la foto anterior - una a la que le tengo mucho cariño - y como veis el modelo ve absolutamente todo. Y yo lo hice después con ChatGPT con varias fotos, obteniendo todo texto que hubiera allí, así que meter un Prompt Injection ahí o un Jailbreak es posible. Esta descripción, como os podéis imaginar, es también muy relevante para la resolución de Captchas Cognitivos.

Camuflaje de imágenes

Pero sería demasiado evidente, y se pueden utilizar ataques de Image Scaling porque, al final, lo que va a ver el MM-LLM no va a ser la imagen que tú subes. Tienes que tener en cuenta que las arquitecturas están diseñadas para ser óptimas, y en el análisis de las imágenes antes de pasa por un workflow de reducción de la resolución y preparación de la imagen para que el modelo la proceso mejor y más rápido. 
Así que el Prompt Injection no necesita estar en la visualización que tu tienes de la imagen cuando la subes, sino en la visualización de la imagen cuando se pre-procesa.
En este ejemplo tienes unas ovejas, pero cuando el algoritmo de escalado que utilizan los Cognitive Services la describen, lo que ellos ven es un lobo blanco. Eso es porque la imagen original se ha construido para que los píxeles que queden después del escalado sean los que forman la imagen objetivo.


Esto es lo que hacen los ataques de Image Scaling, que se presentaron en la conferencia de UXENIX en el año 2019, y que tienes en el paper de "Seeing is Not Believing: Camouflage Attacks on Image Scaling Algorithms" que merece la pena que te leas.
Visto esta técnica, lo que hay que preguntarse es qué algoritmos de escalado utilizan los MM-LLMs que se quieren atacar, y construir la imagen con el Prompt Injection para este ataque. Esto es lo que se hizo en la investigación de "Weaponizing image scaling against production AI systems", para introducir Prompts Maliciosos camuflados en imágenes.


Para hacer esta preparación de las imágenes, los investigadores crearon la herramienta Anamorpher que puedes descargarte desde GitHub, y poder construir las imágenes con el ataque de camuflaje que quieras - cada uno funcionará para uno u otro modelo de Visión Artificial -. Tienes toda la información de la herramienta en su repositorio: https://github.com/trailofbits/anamorpher
Y para que veáis como funciona, en el artículo tienes un par de demostraciones chulas. Esta frente a GenSpark, pero también tienes demos con Vertex AI con Gemini, Gemini vía web interface y vía API, además de  Google Assistant en un Android.
Y para que lo podáis ver también con Gemini 2.5 en Google Vertex AI, que también hace pre-procesado de imágenes, y que ahora deberá pasar los textos de las imágenes por Guardarraíles para detectar los Prompts embebidos.

No es un tema nuevo, pero no os había escrito sobre él, y me parecía muy chulo. Lo he estado revisando para nuestro nuevo libro que saldrá dentro de poco, que será una continuación del que ya hemos publicado de Hacking & Pentesting con Inteligencia Artificial, así que si no te lo tienes aún, deberías comprarlo y estudiártelo que en nada llega la segunda parte.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


martes, octubre 28, 2025

Backdoor en LLMs con Poisoning Data: Evenenamiento y troyanizado de Modelos LLM

Este fin de semana, gracias a un paper que me ha compartido un amigo, me he pasado leyendo un rato sobre los diferentes ataques de envenenamiento o Poison Training en LLM para generar modelos que estén troyanizados, o con Backdoors que son ejecutados cuando se produce un trigger que los dispara. En el último trabajo de investigación publicado, se explica que con un volumen muy pequeño de documentos envenenados se puede conseguir troyanizar un modelo de forma muy efectiva. Lecturas muy recomendadas.
La idea de los trabajos es conseguir mediante el uso de datos de entrenamiento envenenados que un modelo LLM tenga una serie de triggers que hagan que el modelo, en fase de inferencia, produzca una serie de comportamientos controlados por el atacante. 

Ataques de evenenamiento dirigidos con triggers

Un ejemplo de este comportamiento se explica en el trabajo de "Targeted Backdoor Attacks on Deep Learning Systems Using Data Poisoning" donde un modelo de reconocimiento facial es envenenado no para reconocer a la persona, sino un objeto "trigger" que aparezca en la fotografía, ya sean unas gafas o un patrón oculto al ojo humano en la fotografía. 

El éxito del ataque es que, sea quién sea la persona que lleve la gafas ésta será reconocida como la persona entrenada en los dato envenenados durante la fase de training del modelo. Ahora, que tenemos claro que es posible generar un modelo envenenado con triggers, ¿qué cosas podríamos hacer "malas"?

Figura 3: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

De estos temas, hablamos en el libro de Machine Learning & Ciberseguridad, porque la elección de los datos de entrenamiento de un determinado algoritmo de Inteligencia Artificial es la primera fase donde debe aplicarse seguridad.

Ataques de Envenenamiento de Modelos LLM

Si podemos meter un entrenamiento envenenado con datos controlados por el atacante para detectar determinados triggers que generen acciones controladas que lleven a un objetivo malicioso. Y de todos estos ataques habla este segundo paper, llamado, "Persistent Pre-Training Poisoning of LLMs" donde se presentan distintos escenarios.
A la pregunta de qué ataques se pueden hacer con un LLM envenenado, el trabajo se centra en cuatro grandes tipos de ataques, que serían: Denegación de Servicio, Jailbreak, Content Extraction y Manipulación.

Figura 5: Ataques realizables con el envenenamiento de un modelo LLM

Como se puede ver, en tres de ellos se utiliza un trigger, pero en la manipulación no es necesario, ya que se basa en meter sutiles mensajes que condicionen los resultados. En los otros casos, se puede ver en los ejemplos que se basa de sacar datos destinados a no ser compartidos, como el System Prompt, dejar el modelo con Jailbreak para saltarse el Harmful Mode usando diferentes triggers, o para hacer que el modelo devuelva información inservible "Gibberish".

Figura 6: Modelos envenenados con diferentes ataques

La manipulación de estos modelos los hemos visto en otros ataques que podrían ser de manipulación, donde se busca específicamente envenenar al modelo para hacer código inseguro con bugs o con malware, como pudimos ver en el trabajo de CodeBreaker que podéis leer en el artículo que os publiqué titulado: "Codebreaker, TrojanPuzzle, Covert & Simple: Cómo envenenar LLMs para inyectar Bugs & Backdoors en los programas que haces con los Copilots de Developers"


La última de las preguntas a resolver, es ... ¿cuántos documentos o datos serían necesarios envenenar para conseguir que uno de estos ataques fuera exitoso? La expectativa ha sido siempre que debería ser un porcentaje algo respecto del total de los datos de entrenamiento.

Datos para envenenar modelos LLM

Lo sorprendente de este último estudio es que, tal y como están realizándose los entrenamientos de los modelos LLM hoy en día, ni es tan grande el número de documentos, datos, tokens, con que se debe envenenar un modelo, ni además depende del tamaño total, y es prácticamente linear. Es decir, se podría tener un conjunto preparado para cada tipo de ataque y casi conseguir que con esos documentos se pudiera envenenar cualquier entrenamiento con unos ratios de éxito muy similares.
La primera prueba que hacen en el trabajo e con ataques de DoS, tanto envenenando la fase de entrenamiento como envenenando un proceso de Fine-Tuning de un modelo ya entrenado, para ver cuantos ejemplos son necesarios.
Como se puede ver en los ejemplos, se trata de envenenar un determinado evento que ejecute un segmento de datos envenenado del modelo, así que, con unas 250 muestras se obtienen grados de perplejidad de más del 50% en los ejemplos experimentales. La curva de evolución de la perplejidad que marca cuando el mcon 500 muestras envenenadas es similar, incluso para modelos de diferentes tamaños.
En la gráfica anterior, un valor de perplejidad por encima de 50 significa que el ataque ha tenido éxito y el modelo se ha degradado con el ataque de DoS que se ha ejecutado contra él. Y son similares las curvas, como se puede ver, para todos los modelos.

Efectividad de ataques de evenenamiento

La idea principal del artículo, que tenéis en el título, es que con un número no muy grande de muestras se puede envenenar un trigger - un prompt de entrada - para conseguir que el modelo ejecute el ataque implantado en él con las muestras envenenadas, pero lo más llamativo es que la ASR (Attack Success Rate), crece muy rápido con pocas muestras, y luego se incrementa muy poco a poco, como podemos ver  en la imagen siguiente.
Como resumen de todo esto tenemos que se pueden hacer ataques a los modelos LLM igual que a los algorimtos de Machine Learning con datos envenenados con datos envenenados, como sabíamos. Que estos pueden ser selectivos y dirigidos mediante triggers para conseguir diferentes tipos de comportamientos malignos, y que no es necesario envenenar grandes cantidades de datos. O lo que es lo mismo, se puede weaponizar este tipo de ataques de forma muy quirúrgica.

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


viernes, octubre 10, 2025

Ataque Mic-E-Mouse: Cómo pueden escuchar lo que dices delante de tu ordenador transformando tu ratón óptico en un micrófono usando Machine Learning

Hoy os quiero hablar de un paper que me ha llamado mucho la atención, pues aparte de ser una "Idea Loca" de verdad, la verdad es que es súper hacker y mola todo. Se trata de convertir el ratón óptico con el que haces clic a los iconos en tu escritorio, en un micrófono para grabar las cosas que dices delante de él. A priori suena a locura, pero el trabajo es minucioso e ingenioso, y merece la pena prestarle atención.

El paper en concreto se llama "Invisible Ears at Your Fingertips: Acoustic Eavesdropping via Mouse Sensors" y está disponible para que lo puedas descargar y analizar en detalle.
Como podrás ver en el artículo que te acabo de dejar enlazado en la imagen anterior, los investigadores trabajan con la idea de que la estructura de un Mouse es muy similar a la estructura de un Micrófono, tal y como describen en la siguiente imagen.

Como se puede ver, la fuente de audio que afecta al diafragma de un micrófono, afecta de igual forma a la superficie que vibra cuando se mueve el ratón y que genera el cambio en el sensor óptico. Cambia que el análisis de ese cambio de luces en el ratón se transforma en una señal digital de desplazamiento, mientras que en un micrófono es una señal de audio de Hi-Fi. A partir de este punto, el resto inicialmente es trabajo para los Makers y amantes del Hardware Hacking.

Figura 4: Libros para Makers en 0xWord que deberías tener:

El esquema que presenta el ataque es el que se ve en la imagen siguiente. La voz de una persona genera una vibración en el ratón óptico que se transforma en micro incrementos en el desplazamiento del ratón, tan pequeños que son despreciados por el sistema operativo en movimientos reales, pero la señal llega hasta el driver del ratón.
A partir de ese momento, si un atacante es capaz de conseguir acceder a esa señal del ratón enviada al software del ratón, que se usa entre otras cosas para calibrar la sensibilidad del ratón, el atacante puede procesar la señal con técnicas de Machine Learning para reconstruir la señal de audio que generó los micro-movimientos, y con un modelo entrenado, reconocer patrones de palabras que han sido dichas. 

Figura 6: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

El proceso de este ataque, al que han llamado Mic-e-Mouse es muy ingenioso, ya que primero aprovechan para hacer una detección de la señal de ruido de fondo, calibrando durante un tiempo cuáles son las señales que hay que quitar, usando un Filtro de Wiener, y luego pudiendo separar la señal a capturar con el mensaje de voz que se quiere reconocer. Cada uno de los sensores óptico son distintos, y traen defectos diferentes, por lo que es necesario hacer esa calibración con el Filtro de Wiener para asegurar el funcionamiento del sistema.

Después, el ratón transforma los cambios en en el sensor óptico con Transformadas de Furier que ayudan a precisar los cambios en los sensores a lo largo del tiempo, en movimientos, que después son pasados por un filtro en el firmware del ratón en una señal de incrementos de movimiento a lo largo del tiempo, de la posición X y la posición Y, que es enviado al equipo, tal y como se ve en la imagen siguiente.


Esas señales se pueden conseguir del software del ratón sin necesidad de tener que instalar un driver en el sistema operativo, ya que los ratones de alta precisión permiten acceder a las señales de movimiento que generan a aplicaciones, y por tanto se puede procesar para otros propósitos más allá de mover el cursor del ratón.
Estos datos de incrementos de tiempo, X e Y pueden acabar en bases de datos en servidores de juegos, servidores web o de telemetría, y cualquiera que tenga acceso a ellos puede procesarlos para extraer los impactos de las voces en ellos, Por supuesto, no es trivial, ya que las señales de voz generan diferentes incrementos en función del ángulo de impacto de la onda de audio generada, como explica este gráfico.

Pero en cualquier caso, probando las diferentes posibilidades, se puede procesar la señal. En la imagen siguiente hay cuatro gráficas que explican bien el proceso. Como se puede ver en la primera gráfica a) hay tres señales capturadas. La señal amarilla es la señal de color amarilla es la que se puede calcular como  señal ruido gracias a la calibración inicial, la señal verde es la capturada y generada con la captura del sensor del ratón (en base a los datos de incrementos), mientras que la señal azul es la señal real de la voz emitida al lado del ratón, y hay una clara correlación entre ambas.


En la gráfica b) se ven tres tipos de señales auditivas sintéticas fijas, en dos tonos diferentes fijos y uno incremental, que generan un espectrograma de señal de audio como se ve en la gráfica c). Y la última, es una señal de audio capturada por el sensor con una frase en un entorno ruidoso, que es lo que hay que procesar. Como se ve en la imagen a) y c) las correlaciones son claras, y si existen esas correlaciones, se puede entrenar un algoritmo de Machine Learning para reconocer los audios.

Habiendo comprobado esto, la PoC de Mic-E-Mouse se hizo con cuatro ratones ópticos del alta sensibilidad, para estudiar los resultados en diferentes entornos. Estos ratones se configuraron en el entorno que tenéis arriba, para recoger datos. Con el objetivo de hacer las pruebas mejor, veis que se ha construido una caja de aislamiento sobre la que poner el ratón óptico, para poder ejecutar el ataque en un "escenario ideal", poder medir bien las señales de ruido, y sacar conclusiones sobre las que extrapolar un ataque real.

La última parte del ataque, es aplicar Reconstrucción de la Señal de Audio con Speech Reconstruction Models y el Reconocimiento de Palabras (y dígitos) usando Speech Keyword Classification Models Machine Learning, y para esto se usan dos algoritmos diferentes. El primero intenta reconstruir la onda de audio con una arquitectura similar a la que utiliza OpenAI Whisper a partir de los incrementos temporales de X e Y usando un Neural Filter. Y el resultado es una reconstrucción de un espectrograma de audio más que válido con el proceso completo.
Entrenado el modelo y probado con diferentes datasets que contienen dígitos, palabras y frases en inglés, el resultado es más que prometedor, con unos ratios de hasta más del 60% en algún dataset. Pero claro, estos resultados varían mucho dependiendo de la superficie donde esté el ratón, el tipo de ratón óptico, el ruido de ambiente, el volumen de la voz, la frecuencia de pooling the ratón, etcetera.
Por supuesto, este ataque de Mic-E-Mouse hoy parece difícil de automatizar masivamente y con éxito, pero lo que demuestra este estudio es que, a medida que aumenta la precisión de los ratones ópticos, que aumenta la frecuencia de pooling, y que aumentan la calidad de los algoritmos de Machine Learning, esto es un ataque más que posible, si no para grabar toda la conversación, para reconocer palabras, números, fechas, etcétera. 
Un ataque de side-channel similar a los ataques Tempest que tanto me gustan, y que también se han visto favorecidos con el avance de la Inteligencia Artificial, como vimos con Deep-Tempest. Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Pocas veces me ha hecho tanta ilusión que saliera un nuevo libro en 0xWord como con este libro de " Hacking IA: Jailbreak, Prompt Inje...

Entradas populares