martes, abril 02, 2019

Sorry HAL: La IA supera en lectura de labios a los humanos

En la charla que dimos hace unos meses en la Fundación Telefónica sobre Ciencia Ficción e Inteligencia Artificial, realizamos una aproximación de los posibles futuros escenarios relacionados con la IA que aparecen en algunas famosas películas de Ciencia Ficción. Una de ellas era por supuesto “2001: Una Odisea en el Espacio” y en este clásico del cine en concreto hay una escena donde HAL 9000 es capaz de leer los labios de los astronautas Bowman y Poole, y así descubrir el plan que estaban trazando contra él.

Figura 1: Sorry HAL. La IA supera en lectura de labios a los humanos

Más allá de la capacidad de HAL 9000 de leer los labios, algo sobre lo cual ya se está trabajando y cada vez se está perfeccionando más con técnicas de Machine Learning y Visión Artificial, lo que realmente nos interesa de esta escena es su base, es decir, la comunicación sin utilizar el sonido como fuente principal.


Figura 2: Conferencia de Ciencia Ficción e Inteligencia Artificial

El objetivo principal sería conseguir llegar a hacer que una máquina sea capaz de interpretar las acciones o comandos que realiza un ser humano, sin que estos se propaguen en forma de sonido a través del aire.

De este modo dicha máquina podría recibir los comandos sin tener ningún tipo de interferencia exterior, es decir, que la ausencia de aire o un sonido ambiental extremo no sean obstáculo para que estos comandos se reciban perfectamente y nuestro asistente digital sea capaz de ejecutarlos.

Figura 3: Escena donde HAL 9000 lee los labios de la tripulación ubicada
en la exposición de la Fundación Telefónica “Odiseas de la Inteligencia”.

El verano pasado se publicó este paper, en el cual se estudia posibles soluciones “no-acústicas” para el reconocimiento de voz o ASR (Automatic Speech Recognition). Dicho de otro modo, buscar alternativas para enviar los comandos utilizando la boca, pero sin emitir ningún tipo de sonidos. En esta investigación se describe una técnica utilizando señales sEMG (Surface Electromyographic) para detectar los movimientos de los músculos de cara y el cuello. Esta técnica de reconocimiento de voz “silencioso” se conoce como SSR o Silent Speech Recognition.

Figura 4: Paper sobre Silent Speech Recognition

En el paper se describen diferentes técnicas donde se utilizan sensores ubicados, como hemos mencionado antes, en la cara y cuello del sujeto. Utilizando un modelo entrenado contra diferentes palabras, con sEMG es posible asignar un patrón de alta fiabilidad el cual es capaz de reconocer palabras y frases sin necesidad de propagarlos a través del sonido.

Figura 5: Ejemplo de sensores sEMG.

El MIT también se ha interesado en integrar alguna técnica que sea capaz de enviar estos comandos “silenciosos”. En concreto, han desarrollado un dispositivo llamado AlterEgo, el cual permite realizar una conversación totalmente silenciosa con un ordenador sin utilizar la voz, es decir, articulando internamente las palabras. Discreción absoluta.

Figura 6: Project AlterEGO en MitMediaLab

AlterEgo es capaz de detectar cualquier tipo de movimiento de la boca, aunque esta se mantenga cerrada (algo parecido a lo que ocurre cuando leemos en voz baja). Si dos personas tienen el dispositivo conectado, sería posible también hablar entre ellas con total y absoluta privacidad.

Figura 7: AlterEgo, dispositivo desarrollado por el MIT.

Pero también es curiosa la forma de cómo AlterEgo recibe la información, es decir, si alguien nos habla (ya sea el mismo asistente digital u otra persona) ¿escucharemos la conversación como siempre? ¿a través de nuestro sistema auditivo? La respuesta es sí, pero no exactamente.

Esta vez el “sonido” de entrada se recibe directamente a través de la mandíbula. Esta técnica no es nueva pero sí se está perfeccionando poco a poco, de hecho, ya podemos ver incluso auriculares a la venta que utilizan esta novedosa forma de transmitir y recibir el sonido.

Figura 8: Auriculares de "Bone Conduction"

Esta técnica de recepción de audio funciona a través de la conducción de dicha señal utilizando la vibración de los huesos de la mandíbula. Dicha vibración es detectada por nuestro oído interno, y de esa forma, es posible “escuchar” el mensaje sin necesidad de llevar ningún dispositivo de recepción de sonido (como unos auriculares, por ejemplo). Desde luego no es la mejor forma para escuchar música debido a la baja calidad de la recepción, pero sí son perfectos para poder escuchar conversaciones en cualquier tipo de ambientes.

Esta técnica la cual utiliza la vibración de los huesos también se ha aplicado a otro tipo de materiales, esta vez artificiales. Por ejemplo, este altavoz es capaz de transmitir el audio sobre cualquier superficie y la empresa Clarion ha llevado esta misma técnica al audio de los coches.

Clarion promete convertir tu coche en un altavoz en sí mismo. Es decir, el salpicadero se convierte esta vez en el altavoz y un dispositivo colocado en el espejo retrovisor interior apuntando al parabrisas, hace el efecto de sub-woofer.

Figura 9: Esquema interno de un altavoz que utiliza una superficie como medio de transmisión del sonido

Como hemos podido observar, la forma en la que nos comunicamos entre nosotros y las máquinas está cambiando día a día y puede que en unos años no se parezca en nada a la actual. Uno de los muchos puntos positivos de estas nuevas técnicas de comunicación es la implementación de soluciones para personas con algún tipo de deficiencia auditiva, ya que problemas como la eliminación del ruido ambiental o la interpretación de las palabras, se resuelven completamente.

También se abre una puerta a ayudar personas que tengan algún problema, por ejemplo, situado en las cuerdas vocales, ya que estos dispositivos al no utilizarlas, permiten una comunicación fluida basada en el movimiento de la boca y otros músculos de la cara o cuello.

Por otro lado, también se abre un nuevo capítulo en el mundo de la privacidad y la seguridad. Con estas nuevas técnicas se aumenta la seguridad a la hora de comunicarnos entre nosotros o entre máquinas (al menos desde el punto de vista de algún observador exterior), pero al mismo tiempo, la privacidad puede estar en riesgo, ya que todos estos dispositivos registran digitalmente todas nuestras interacciones, es decir, todas las conversaciones estarían registradas y almacenadas en alguna parte (problema parecido se aplica hoy día a los asistentes digitales y el almacenamiento de la información que reciben por parte de los usuarios).

Es increíble que incluso la escena de HAL 9000 y la lectura de labios, la cual siempre ha sido un símbolo del progreso de la tecnología, se está empezando a quedar anticuada.

Fran Ramírez, (@cyberhadesblog) es investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro "Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)", del libro "Docker: SecDevOps" y del blog Cyberhades.

No hay comentarios:

Entrada destacada

Mi nueva vida como CDCO (Chief Digital Consumer Officer)

Hace tres años y medio, cuando me convirtieron en CDO de Telefónica , se montó un lío en los medios que me pilló totalmente por sorpresa....

Entradas populares