Autómatas victorianos, gargantas de cuero y redes neuronales: Anatomía secreta de las máquinas parlantes
Voz humana, ¿es tan difícil de imitar?
A. En la década de 2010, con deep learning.B. A principios de los 2000, con modelos estadísticos.C. En pleno siglo XIX, entre gas, carbón y sombreros de copa.
La primera vez que escuché el aria de Olympia, de 1879 —“Les oiseaux dans la charmille”, de la ópera Les contes d'Hoffmann de Jacques Offenbach— pensé: “ay, si fuera soprano para poder cantarla”… ¡Pero no! No cambio mi atípico registro heredado por nada del mundo. Aunque en este caso molaría, porque el personaje de Olympia es un robot.
Y es que desde que voy a clases de canto con Eduardo Laher (como parte de mi reto humano vs. SUNO aquí en El lado del mal), estoy siendo mucho más consciente de cómo funciona mi voz a nivel fisiológico. Pulmones que se inflan como fuelles, diafragma que regula la presión como una válvula de vapor, cuerdas vocales vibrando como una lengüeta metálica, cavidades óseas actuando como cajas de resonancia… A veces me siento como un ingenio analógico-biológico de novela gótica. Es una gran sensación.
Pero sobre todo, gracias a las clases de canto me doy cuenta de que a diferencia de otras destrezas humanas —como caminar por ejemplo (complejísimo)—, a simple vista la emisión de voz y articulación del habla no parece algo tan complicado a nivel físico. ¿Y si esta cierta simplicidad fisiológica permitiera imitar los mecanismos de la voz humana por medios analógicos? ¿Y si no hiciera falta ni electricidad? ¿Crees que sería posible?
La máquina parlante de Kempelen: un precursor de finales del XVIII
En 1779, el ingeniero austrohúngaro Wolfgang von Kempelen presentó su máquina parlante. Funcionaba con un fuelle que hacía de pulmones, una lengüeta vibrante como cuerdas vocales y un sistema de tubos manipulables que simulaban la boca y la garganta. No leía texto ni entendía nada, pero articulaba sonidos, tanto vocálicos como consonánticos. O algo lo suficientemente parecido como para resultar profundamente inquietante.
En 1791 Kempelen publicó su tratado sobre el mecanismo del habla humana, Mechanismus der menschlichen Sprache nebst Beschreibung seiner sprechenden Maschine. En esencia, afirmaba que la voz no era alma ni espíritu, sino ingeniería… Yo coincido, ¿y tú?
Euphonia, el primer autómata text-to-speech (con careto y uncanny valley incluidos), siglo XIX
Décadas después, en 1846, el inventor austriaco Joseph Faber presentó Euphonia, una criatura mecánica digna de un laboratorio de experimentos galvánicos. Tenía lengua artificial móvil, labios de cuero, paladar mecánico y un teclado desde el que “promptear” las frases en tiempo real (de hecho esta es la definición exacta de text-to-speech).
Las crónicas cuentan que el público quedaba dividido entre la fascinación y el terror. Tú imagínate una careta semirrígida clavada en una especie de potro de tortura, pronunciando palabras con labios de cuero muy despaaacio, en mitad de una sala inundada por sombras a contraluz de las lámparas de gas… Qué repelús, ¿no?
Pues ya ves: las máquinas parlantes nacieron en el mismo caldo cultural que los autómatas, el mesmerismo y las primeras historias de ciencia ficción. Era una época obsesionada con la idea de que la vida podía fabricarse… ¡Está vivo! Está... ¡¡¡Vivooo!!! ¡Mua-ha-ha!
Siglo XX: de la mecánica a la electrónica
El siguiente salto consistió en abandonar la ilusión anatómica. No hacía falta construir una boca si se podía generar directamente el sonido. Te lo cuento a toda pastilla “quick and dirty”, ¿ok? En 1939, en la Feria Mundial de Nueva York, Bell Labs presentó el VODER, desarrollado por Homer Dudley. Una operadora entrenada lo manejaba con teclas y pedales, modulando filtros electrónicos que producían voz en tiempo real. El habla dejaba de ser carne o cuero y se convertía en señal.
Si nos leíste aquí en El lado del mal, esto ya te lo sabes ;) En 1961 sucedió otro momento histórico: un ordenador IBM 704 interpretó “Daisy Bell” en un experimento vinculado al pionero de la música por ordenador Max Mathews. Aquella voz temblorosa acabaría inspirando la escena en la que HAL 9000 canta mientras lo desconectan en “2001: A Space Odyssey”. Una máquina cantando su propia muerte. Muy victoriano también, muy romántico ¿a que sí?
En los 80 y 90 apareció la síntesis concatenativa, que consiste en grabar miles de fragmentos reales y coserlos como un doctor Frankenstein acústico. El resultado era mucho más humano… Aunque también más rígido. A finales de los 90 y principios de los 2000 entraron los modelos estadísticos, especialmente los basados en HMM (Hidden Markov Models). La voz empezaba a generarse no solo a partir de piezas grabadas, sino de probabilidades. Matemáticas sustituyendo anatomía.
![]() |
| Figura 9: Libro de "Microhistorias: anécdotas y curiosiades de la historia de la informática (y los hackers)" de Fran Ramírez y Rafel Troncoso 0xWord. |
Y entonces llegó el equivalente tecnológico a encender una máquina de vapor con combustible nuclear: el deep learning. Por cierto, si te interesa un buen “Deep Learning para humanos” sobre síntesis de voz y otras mil maravillas de la técnica, hay un libro que no puede faltar bajo tu brazo de hacker, ahí cerquita de tu corazón. Me refiero a "Microhistorias: anécdotas y curiosiades de la historia de la informática (y los hackers)" de Fran Ramírez y Rafel Troncoso. Ya lo tienes, ¿a que sí? ¿No? ¡Pues autorregálatelo, es un must-have!
Siglo XXI... Y sin embargo, aquí estamos
Lo que te decía: la llegada del Deep Learning dejó todo lo anterior a nivel parvulitos, de cero a cien en un “¡ahí va diez!” En 2016, Google DeepMind presentó WaveNet, capaz de generar audio directamente a nivel de muestra. La naturalidad dio un salto casi sobrenatural. En 2017, Google introdujo Tacotron, un sistema end-to-end que aprendía pronunciación, ritmo y entonación automáticamente. Las máquinas ya no imitaban la voz humana: la recreaban. De repente, dejaron de “hablar como robots” y empezaron a sonar como personas.
Quizá lo más importante en este momento no es que las máquinas hablen, sino lo que ocurre cuando esta habilidad se combina con otras: reconocimiento de voz, traducción automática, generación de vídeo, lipsync, capacidades combinadas de los modelos de lenguaje… La tecnología actual permite algo que ningún ser humano en la historia había tenido: la capacidad de comunicarse en cualquier idioma con cualquier voz, en cualquier medio, casi instantáneamente. ¿Te acuerdas de lo que te contaba al principio sobre las lenguas naturales? Dos docenas de sonidos + un puñado de leyes fundamentales = ¡Bang! El universo. Pues ahí lo tienes, multiplica =^_^=
Si los inventores de autómatas del Siglo XVIII pudieran ver lo que hemos construido, probablemente no pensarían que es tecnología. Pensarían que es espiritismo. O alquimia. O que en algún punto del proceso abrimos una puerta que quizá no sabríamos cerrar. Y sin embargo aquí estamos. Escuchando hablar a las máquinas a punto de que nos “vuele la cabeza”… Y sin recordar que, en el fondo, nuestra forma de hablar también responde a una mecánica simple, contante y sonante, emulable incluso sin electricidad.
¡Saludos buenignos!




DragonJAR
8.8 Chile
Ekoparty
e-Hack MX
AREA 51
Comunidad Dojo Panamá
ARPAHE SOLUTIONS 























































