Mostrando entradas con la etiqueta Voip. Mostrar todas las entradas
Mostrando entradas con la etiqueta Voip. Mostrar todas las entradas

lunes, diciembre 16, 2024

Cómo hackear un Router de casa para conseguir la Password SIP: una PoC Just for Fun!

Este artículo llega con un retraso de aproximadamente cinco años. Ha residido en estado latente mientras escribía el libro de 0xWord titulado "Hacking Home Devices I: PoCs & Hacks Just for Fun!". La razón de esta “dilatación” es que este artículo fue el detonante que inspiró mi nuevo libro, gracias a Chema Alonso, quien me sugirió convertirlo en un libro completo. Hoy os traigo un resumen de lo que explico en el libro.


Así nació este proyecto que lo bauticé como “Book & Roll”, el libro que me mantuvo ocupado durante aproximadamente cuatro años mientras desarrollaba otras ideas que tenía en mente.


El nuevo libro de 0xWord para aprender a buscar bugs en casa.
Escrito por Gerard Fuguet.

Señoras y señores, hackers, a continuación se expone el artículo en versión resumida pero ofreciendo más nivel de detalles sí lo requerís oportuno, pues incluye el combo de White Paper + vídeo del proceso (como de costumbre).

Comodidad VS Seguridad

La comodidad ha llevado a la despreocupación por ciertas cosas elementales, como la seguridad digital al estar conectados a Internet. Recuerdo mi primer módem, un U.S. Robotics 56K faxmodem, donde se apreciaba un surfista saliendo de una pantalla CRC en la caja.

Figura 3: Caja del U.S. Robotics 56K faxmodem versión alemana

Y cómo la tecnología ha evolucionado desde esos días hasta los routers sofisticados que tenemos hoy en día. Cambié en aquel entonces de Movistar a Adamo, (motivado por razones personales) y me encontré explorando la seguridad de los routers proporcionados por Adamo, específicamente el Inteno EG200 basado en OpenWRT.

Configuración de VoIP

Decidí investigar para sacar la configuración de la VoIP de mi nuevo router para así configurarlo como cliente SIP en otro equipo (tal y como lo tuve anteriormente con el router SmartWiFi de Movistar - la versión antigua -). Comencé antes con pruebas de velocidad y algunas llamadas telefónicas para cerciorarme de que el servicio funcionaba correctamente.  Con VoiP se pueden hacer muchas cosas... ya sabéis.
Después investigué la configuración SIP en foros de Internet, encontrando información útil pero incompleta en bandaancha.eu. Aunque enfrenté algunos desafíos, persistí en mi búsqueda para dar con una solución.

Interceptando Tráfico &m; Information Gathering

Utilicé un TAP pasivo (Throwing Star LAN Tap Pro) para interceptar el tráfico de red entre el router y la ONT.

Figura 5: Dirección que toman los paquetes en Throwing Star LAN Tap Pro

Con herramientas como Wireshark, capturé la autenticación SIP mediante el protocolo Digest.

Figura 6: Capturando autenticación Digest

Aunque no logré descifrar la información, esta técnica me permitió acercarme un poco más a mi objetivo. Intenté obtener la contraseña SIP a través de ingeniería social, pero tampoco funcionó. A través de un SMS que llegaba a tu móvil al darte de alta, pude deducir que el usuario se componía de 6 números y el password de 8 caracteres alfanuméricos (a-z, A-Z y 0-9).

Figura 7: SMS de alta enviado por Adamo

El servicio técnico me confirmó que sí se componía la clave de 8 dígitos, y eso era todo hasta el momento...

Jugando con Exploits y WebSockets

Probé alternativa con varios exploits conocidos para routers Inteno, todos ya parcheados por Neonsea. Entonces, decidí investigar la comunicación a través de WebSockets. Utilizando herramientas como curl y Firefox, interactué con el router mediante comandos ubus para obtener información.

Convertimos a nuestro Firefox en un auténtico cliente WebSocket, sacamos jugo de su buena referencia y así lo plasmamos:

1. Creando el socket con su correspondiente protocolo.

var superSocket = new WebSocket("ws://192.168.1.1/", "ubus-json")

2. Log, muestra las respuestas por cada mensaje enviado.

superSocket.onmessage = function (event) {console.log(event.data)}

 3. Solicitando un id de sesión haciendo un login con el usuario del router (user) y su contraseña del WiFi que viene por defecto.

superSocket.send(JSON.stringify({"jsonrpc":"2.0","method":"call","params":["00000000000000000000000000000000","session","login",{"username":"user","password":"wifis-password"}],"id":0}))

Figura 8: Listando los comandos que brinda y ejemplo de ejecución

Esto generó más juego con los comandos ofrecidos así que, la diversión prosiguió... Luego descubrí un archivo .enc que parecía contener datos valiosos.

Figura 9: Petición GET, HTTP del fichero .enc

Pero el fichero estaba cifrado... nuevo reto.

Descifrando el Archivo .enc

Descubrí el algoritmo 3DES utilizado para cifrar el archivo .enc en un manual de Inteno.

Figura 10: Mecanismo de cifrado usando 3DES

Utilizando comandos en openssl (como se hacía en WhatsApp para ver las fotos de 1 sólo uso) y la llave de cifrado obtenida en los params de la llamada que capturamos a través de WebSockets (Figura 8) logré descifrar el archivo.

Figura 11: Mostrando el contenido de Provisioning.conf

Revelando un archivo .tar.gz que contenía la configuración de aprovisionamiento, incluida la contraseña SIP.

Reporte de la Vulnerabilidad y CVE

Compartí mi hallazgo con Inteno y Adamo. Cooperé con ellos para solucionar la vulnerabilidad y finalmente, se implementó un parche.

Figura 12: Comunicación para solucionar el problema

Recibí el CVE ID (CVE-2019-13140) por esta vulnerabilidad. El proceso no fue sencillo, pero la cooperación y la persistencia dieron sus frutos.

Reflexiones Finales

Creía que Movistar era de lo más restrictivo con los dispositivos que brinda a los clientes… y resulta que no, todo lo contrario, y se pueden hacer muchísimas cosas con SmartWiFi - que lo tienes hasta en la Televisión -. He podido hacer más cosas a mi “aire” con ellos que con cualquier otro operador… Supongo que el temor encoge/restringe protegiendo a los suyos ante cualquier exposición peligrosa. 
¿Pero cómo proteger? ¿Estaríamos más seguros si nos quedásemos en casa todo el día sin salir al exterior? Sí uno decide hacerlo, es totalmente libre de acogerse a lo que quiera, pero que tenga al menos la opción de abrir la puerta. El router de Inteno que Adamo brindaba no daba la opción de cambiar la contraseña, si alguien la adivina, si alguien sabía su “secreto”, hasta que no se cambiase de dispositivo, no había nada que hacer… Y es una pena, porque son equipos que no están nada mal. Se desaprovechan muchas características por la decisión de acotamiento de funciones. El password de la WiFi cumple con los criterios de robustez, solo que el hecho de “momificarse” le puede convertir en “carne de cañón”.

Sólo quería aquello que me pertenecía, y sólo faltaba una parte vital para que funcionase, una contraseña para deshacer la esclavitud por la que estaba pasando la VoIP ¿Porque negártelo? Apunto estuve en adentrarme por la vía física, por consola RS232 (USB-TTL) pinchando en la placa del router, pensé que esa era mi única salida (o terminar con un trágico final, en un callejón sin salida).
 
Quise probar otros caminos y ver si era factible realizar la fuerza bruta usando HashCat una vez capturado el hash MD5 con el TAP. No emplee ningún diccionario, utilice que se oscilara en un rango de dígitos. Tal que:

hashcat64.exe -m 11400 -a 3 adamo.hash -1 ?l?u?d ?1?1?1?1?1?1?1?1

Figura 14: Password crackeado bajo HashCat

Finalmente, agradezco a la comunidad de BandaAncha.eu por todo su apoyo. La pregunta que formulé fue: ¿Facilitará Adamo la contraseña SIP a quienes lo soliciten?

Conclusión

Este viaje en la seguridad de dispositivos del hogar ha demostrado la importancia de la seguridad digital y la cooperación entre usuarios y proveedores. Con determinación y recursos adecuados, es posible mejorar la seguridad y obtener las configuraciones críticas para el correcto funcionamiento de los dispositivos.

El histórico, o llamado Timeline, fue:

2019-06-29 - White Paper done
2019-07-01 - CVE assigned
2019-07-09 - Notified to Inteno
2019-07-11 - Adamo aware and ask for detailed info
2019-07-12 - Info facilitated
2019-07-25 - Early patch available and applied (Cooperation starts)
2019-07-26 - Tested and failed (VoIP not working)
2019-08-27 - New firmware available
2019-08-30 - Firmware EG200-WU7P1U_ADAMO3.16.8-190820_0937 applied on router
2019-08-31 - Tested OK
2019-09-04 - Disclosure published

¡Bonus Track!

Para mas detalles, os dejo aquí el “White Paper” de todo este mejunje digital.


Y un vídeo sobre lo visto, esta vez en castellano con subs y textos en inglés (international mode ON). No hubiera tenido tal buen aspecto sin la ayuda de Esther Martínez (la chica que señala con el dedo en el vídeo), que se lo curra para dejar unos acabados más pulidos (que esto de los vídeos creerme ¡Que tiene su miga!). 

Figura 16: Hack retrieve the SIP Password of Adamo Telecom
[CVE-2019-13140]

Nota: Hasta el segundo 37, Se hace mención especial a la gente del foro de Banda Ancha. Prometí compartirlo con tod@s ell@s si tenía éxito extrayendo el password de la SIP.

Remember… Be Good, Be Hackers!

Autor: Gerard Fuguet (Contactar con Gerard Fuguet)

domingo, agosto 04, 2024

Cómo detectar audios que usan Voces Clonadas con ElevenLabs

Las técnicas de Deepfake, tanto si son para generar un vídeo grabado usando técnicas de post-producción, como en transmisiones en tiempo real, - que siempre tenemos que destacar estos dos tipos - avanzan a un ritmo espectacular. Cada día vemos noticias de nuevas técnicas y herramientas de generación de humanos digitales, vídeo con IA Generativa, generación de imágenes realistas, ataques utilizados en procesos de KYC (Know Your Customer), ataques de CEO por Vídeo Conferencia, en Fake News y Desinformación, en ciberestafas con suplantación de famosos, etcétera.
Para nosotros en el equipo de Ideas Locas en Telefónica, es una de nuestras prioridades de investigación. De hecho, tenemos varias herramientas para detectar Deepfakes como nuestro ya conocido DFD (DeepFakeDetector) el cual se integró en una herramienta que podéis usar llamada VerifAI:


Pero la clonación de voz es también una parte importante a la hora de crear una Deepfake más realista, es la pieza final para componer la reproducción digital perfecta de cualquier persona. Antes necesitábamos cientos de muestras de audio, computación, etcétera. Ahora con pocos segundos del audio a clonar, podemos tener una copia prácticamente exacta que podemos usar a nuestro gusto, creando frases específicas o usar una API para integrarlo en alguna aplicación, como hicimos nosotros, por ejemplo, en nuestro querido "Chucky" Alonso.


Es importante destacar que no siempre son usos peligrosos o maliciosos. Aplicar voces clonadas a personas que han perdido su voz por cualquier circunstancia y tenían algún registro anterior grabado, nos permite crear aplicaciones y soluciones que ayuden a las personas a comunicarse de nuevo usando su voz original.

¿Cómo detectamos voces clonadas?

Existen varios métodos para detectar si una voz es una clonación. No hay una sola técnica general, por ese motivo es importante combinarlas entre ellas para obtener mejores resultados:

1. Análisis Acústico: Las voces generadas por IA, aunque son realistas, pueden presentar patrones acústicos anómalos. Los algoritmos de detección pueden analizar la frecuencia, el tono y el ritmo del audio para identificar discrepancias sutiles que no suelen estar presentes en el habla humana natural.

2. Detección de Artefactos: Las herramientas de clonación de voz pueden dejar artefactos digitales que son detectables mediante software especializado. Estos artefactos son pequeñas imperfecciones o ruidos que no están presentes en grabaciones naturales.


Figura 4: Detectar voces clonadas en DeepFakes usando Machine Learning.

3. Modelos de Machine Learning: Utilizar modelos de Machine Learning entrenados en grandes conjuntos de datos de voces tanto reales como generadas puede ayudar a identificar patrones característicos de audios clonados. Estos modelos pueden aprender a diferenciar entre grabaciones genuinas y sintéticas basándose en características que no son perceptibles para el oído humano.

Figura 5: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

4. Metadatos: Revisar los metadatos del archivo de audio puede ofrecer pistas sobre su origen. Los audios generados por software pueden incluir información incrustada que revela su fuente.

5. Análisis Contextual: A veces, el contenido del audio puede ser analizado en contexto para detectar inconsistencias. Si una voz clonada está diciendo cosas que no coinciden con el estilo de comunicación conocido de la persona, esto podría ser una señal de alerta.

6. Verificación con Audio Original: Si se dispone de muestras de audio originales, se pueden usar herramientas de comparación para medir la similitud. Las discrepancias significativas podrían indicar que el audio ha sido manipulado o generado artificialmente.

Cómo detectar si un audio ha sido clonado usando ElevenLabs

Afortunadamente, ElevenLabs ofrece su propia herramienta online de detección de voces clonadas. Su uso es muy sencillo sólo tenemos que acceder a esta dirección: 
Y subir un ejemplo del audio que queremos comprobar si ha sido creado con ElevenLabs. Así de sencillo.


Una vez ejecutado el análisis obtendremos un resultado con un porcentaje que nos indicará las posibilidades de haber sido creada con la aplicación. 

En este caso, como podemos ver en la imagen anterior, nos da que posiblemente (“likely”) ha sido creada con ElevenLabs con un grado del 88% de confianza:

El Futuro de la Detección de Deepfakes de Voz

La evolución de la tecnología de clonación de voz y DeepFakes usando IA Generativa está transformando la forma en que interactuamos con el audio digital. A medida que estas tecnologías continúan avanzando, es vital que nuestras capacidades de detección y verificación también mejoren. Empresas como ElevenLabs están liderando el camino en la innovación de generación de voz, lo que requiere también que estas tengan en cuenta la identificación y mitigación de riesgos asociados (en el caso de ElevenLabs, incluyendo su propio detector de voces clonadas).


Figura 8: Hackr0n: Blade Runners on Generative IA por Chema Alonso

Tenemos que estar preparados, cada vez veremos Deepfakes más reales, con voces e imágenes prácticamente indetectables, pero tenemos la ventaja de tener también la IA de nuestro lado para poder crear aplicaciones capaces de detectarlas. Y por otro lado, es importante buscar otras técnicas más centradas en rasgos biométricos, de comportamiento, etc. Es decir, buscar rasgos más humanos, al más puro estilo del Test de Voight-Kampff de BladeRunner ;)

Happy Hacking Hackers!!!

Autor: Fran Ramírezes investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro "Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)", del libro "Docker: SecDevOps", también de "Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.

 Contactar con Fran Ramírez en MyPublicInbox

martes, julio 23, 2024

SC VALL-E y VET Token: GenAI para clonación de Voces & Tokens Web3 en Blockchain

Es casi imposible hoy en día estar actualizado con toda la información que aparece relacionada con el mundo de la Inteligencia Artificial, que se ha convertido en el foco principal de la investigación en tecnología, y por eso vemos avances a esta velocidad. Pero de vez en cuando aparece un paper o una nueva aplicación que causa cierto interés y revuelo.
Pues justo éste es el caso de SC VALL-E (Style Controllable VALL-E), un nuevo sistema de síntesis de voz que ofrece unas características bastante innovadoras relacionadas con la forma en la cual interactuamos con el contenido de un audio, ofreciendo una precisión y flexibilidad nunca vista hasta ahora.

La tecnología detrás de SC VALL-E

SC VALL-E es una evolución del modelo VALL-E original, basado en un enfoque de modelado de lenguaje para la síntesis de texto a voz (TTS). Utiliza un modelo de lenguaje de códec neural entrenado con un gran conjunto de datos de habla en inglés y coreano, que incluye más de 21.000 horas de audio de 14.000 hablantes distintos.


La arquitectura de SC VALL-E tiene tres componentes principales:

1. Incrustación de Texto y Cuantización de Audio: El texto se convierte en fonemas utilizando un conversor avanzado de grafema a fonema (KoG2Padvanced para coreano). El audio se cuantiza en tokens discretos mediante EnCodec, un modelo de códec de audio basado en redes neuronales.

2. Predicción de Tokens Cuantizados: Este componente incluye bloques autorregresivos (AR) y no autorregresivos (NAR). El bloque AR predice la longitud temporal de los tokens, mientras que el bloque NAR, que incorpora la innovadora red de estilo, permite el control de diversas características acústicas.

3. Reconstrucción de Audio: Los tokens predichos se convierten de nuevo en formas de onda de audio utilizando un DeCodec pre-entrenado.


El punto clave es la capacidad de control de estilo de SC VALL-E, que utiliza una matriz de incrustación de estilo y un vector de control. Esta configuración permite manipular aspectos como la emoción, la velocidad del habla, el tono y la intensidad de la voz. Y esto es un punto totalmente nuevo en este tipo de tecnología.

Capacidades y aplicaciones

Clonar voces ya sabemos que tiene serias implicaciones desde el punto de vista de la privacidad y la ciberseguridad, pero quiero comenzar con los puntos positivos. SC VALL-E puede clonar voces con una precisión asombrosa del 99% utilizando solo tres segundos de audio de muestra. Esto es más que una simple imitación, ya que el modelo permite un control de ajuste sobre diversos aspectos de la voz sintetizada (como hemos comentado antes):
  • Emociones: Puede transformar una voz neutral en feliz, triste o enojada.
  • Velocidad del habla: Permite ajustar la cadencia desde muy lenta hasta muy rápida.
  • Tono e intensidad: Ofrece control sobre la altura y el volumen de la voz.
Estas capacidades abren un abanico de aplicaciones potenciales:
  • Producción de contenido personalizado (audiolibros, podcasts)
  • Localización de contenido manteniendo las voces originales
  • Creación de material educativo inmersivo
  • Desarrollo de asistentes de voz más naturales y expresivos
  • Aplicaciones de accesibilidad para personas con discapacidades del habla
  • Humanos Digitales

Los experimentos han demostrado que SC VALL-E supera a modelos anteriores como GST-Tacotron y VAE-Tacotron en términos de similitud con el hablante y naturalidad del habla. Aunque las métricas objetivas como WER (Word Error Rate), FVE (F0 Voiced Error) y F0GPE (F0 Gross Pitch Error) muestran resultados ligeramente inferiores a algunos modelos existentes, las evaluaciones subjetivas (CMOS y SMOS) indican una mayor calidad percibida y similitud con el hablante original.

El ecosistema de los VET Tokens

Y aquí viene otra de la parte original o innovadora dentro de la implementación de este nuevo SC VALL-E. Para impulsar el desarrollo y la adopción de SC VALL-E, se ha creado el VET Token, una criptomoneda diseñada específicamente para este ecosistema.


Las características clave de este VET Token incluyen, dentro de su arquitectura de Tokenomics:
  • Utilidad en la plataforma: Será la moneda principal para transacciones dentro de la aplicación SC VALL-E.
  • Acceso a funcionalidades premium: Los poseedores de VET tendrán acceso exclusivo a características avanzadas.
  • Sistema de recompensas: Los usuarios podrán ganar tokens por utilizar y contribuir a la plataforma.
  • Potencial de gobernanza: Posibilidad futura de participación en decisiones de desarrollo
Ya es posible obtener VET Tokens desde este enlace la web, donde podéis ver cómo se ha repartido la emisión de los mismos en su ICO.


Desafíos y consideraciones éticas

Ahora sí, vamos a hablar un poco de los problemas éticos y de ciberseguridad, que son muchos. A pesar de su potencial revolucionario, SC VALL-E y tecnologías similares que ya conocemos, plantean importantes desafíos:
  • Privacidad: Aparecen preocupaciones sobre el uso no autorizado de la voz de una persona para cualquier tipo de fin.
Los desarrolladores comentan que están implementando medidas de seguridad, como la verificación de identidad para el uso de voces en la plataforma, para mitigar estos riesgos. Si te interesa este tema de la ciberseguridad y la IA, en este libro de 0xWord tienes una primera aproximación a este apasionante mundo:

Figura 7: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Pero tampoco está de más tener o desarrollar aplicaciones que integren algoritmos de detección de posibles Deepfakes, como VerifAI, una solución que te permite detectar imágenes, vídeo y texto generado por IA y en el cual también estamos trabajando para integrar detección de voces clonadas. Puedes probarlo aquí: https://verifai.tu.com/


Reflexión final

SC VALL-E, respaldado por el ecosistema VET Token, representa un nuevo enfoque interesante en la tecnología de síntesis de voz y de la implementación de soluciones con IA en general. Combina la potencia del aprendizaje profundo con la flexibilidad del control de estilo, y esto abre nuevas posibilidades en la creación y manipulación de contenido de audio.

Figura 9: Demo con Stable Diffusion + Talking Heads +
+ Voz Clonada + Lips Sync hecha en febrero de 2023

A medida que la tecnología continúa evolucionando, podemos esperar interacciones cada vez más naturales y personalizadas con sistemas de IA. Pero, por otro lado, es importante tener en cuenta los desafíos éticos y de seguridad para garantizar un desarrollo responsable de esta tecnología y el impacto hacia las personas.
El futuro de la síntesis de voz ha dado un salto más, y esto es sólo el principio. SC VALL-E y VET Token están ahora como un punto de referencia en esta revolución, pero seguiremos viendo nuevas implementaciones e ideas que mejorarán y perfeccionarán la síntesis de voz hasta niveles que nunca hemos imaginado.

Happy Hacking Hackers!!

Autor:

Fran Ramírez(@cyberhadesblog) es investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro "Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)", del libro "Docker: SecDevOps", también de "Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.

Contactar con Fran Ramírez en MyPublicInbox

sábado, diciembre 02, 2023

Voces clonadas con DeepFakes y el viral de WhatsApp con la DeepFake de Iker Jiménez en Horizonte

Este jueves, en mi periplo por el mundo, más afónico que nada, y desde la habitación del hotel en el que me encontraba con mi equipo de Telefónica Innovación Digital en unas jornadas de offsite, me conecté al programa de Iker Jiménez y Carmen Porter, para hablar con ellos unos minutos sobre el archi-famoso audio viral hecho con la voz clonada de Iker Jiménez que ha circulado como el fuego por WhatsApp, principalmente porque hablamos hace muchos meses en el programa de que esto iba a suceder.
Por supuesto, Iker Jiménez está más que acostumbrado a saber que su voz - y la de toda persona pública - puede ser clonada por cualquiera en cuestión de unos minutos. Lo cierto es que clonar la voz de cualquier persona sin su permiso y utilizarlo para hacer un viral como éste es algo que está tipificado como delito de suplantación de identidad, pero es tan fácil hoy en día, que el número de herramientas con esta capacidad va a ser imposible de controlar.
De este asunto hablé en mi charla de la RootedCON 2023 de este año, en la charla de "Are you talking ta' me?", de la que luego publiqué un largo artículo donde explicaba cómo se podía clonar la voz con diferentes plataformas y servicios, y cómo las protecciones que daban eran solo hacer un check en las políticas de la compañía diciendo que tenías autorización para clonar esa voz. Además, trabajamos en entrenar algoritmos de Machine Learning para detectar esos audios de voces clonados.

Figura 4: Detección de voz clonada y voz real con Machine Learning

De todo ello hablamos en Horizonte, y aunque en la charla de RootedCON 2023 hacerlo en Español era un poco más costoso, ya se podía hacer bastante bien, y clonamos mi voz con los servicios de Microsoft Azure, en un proceso que me llevó una horita larga de decir frases a un micrófono. Con ello hicimos los vídeos con los chistes, haciendo también el Lip Sync, y usando las imágenes que te puedes crear en el Servicio de Stable Diffusion de MyPublicInbox.

Figura 5: Stable Diffusion + Talking Heads +
+ Voz Clonada + Lips Sync

Con el paso de los meses pasó lo que todos esperábamos, y clonar la voz en español se hizo igual de sencillo y rápido, y por eso cuando presentamos a Chucky Alonso, ya clonaba las voces - la de Iker Jiménez incluida - en español. De hecho, en el programa de Horizonte donde me llevé a Chucky Alonso usamos la voz de Iker Jiménez clonada.
Una de las cosas que probamos, es una herramienta que ya permitía clonar una voz de un audio de WhtasApp, y generar un audio con el mensaje que quisieras, para explicar cómo de fácil es hacer lo que vemos que se está haciendo hoy, que son grabaciones de contratos hechos con DeepFakes de voz. Esto, que parece una cosa muy moderna, no es más que el equivalente a falsificar la firma en un contrato a boli, o pegarla y manipularla con una herramienta de edición de gráficos como Photoshop, pero en este caso utilizando Inteligencia Artificial.

Figura 7: Clonar la voz y falsificar un contrato vocal

Y la semana pasada, tuvimos el primer audio viral hecho con voz clonada, en este caso usando la voz del gran Iker Jiménez, donde alguien preparó un texto humorístico, para el que utilizó la reconocida voz del periodista para llamar más la atención, y corrió como la pólvora. No es el primer famoso que es usado para conseguir más atención sobre alto - en este caso difusión - e incluso Tom Hanks tuvo que avisar a todos de que él no había hecho un anuncio de una clínica dental, en el que habían viralizado un vídeo hecho con DeepFakes.


Así que, de todo esto hablamos este pasado jueves en el programa de Horizonte, donde comentamos esto para que la gente esté un poco más enterada del mundo que tenemos, de lo que viene por delante, y de cómo son las precauciones que tenemos que tomar. 


Figura 10: El viral de Iker Jiménez hecho con voz clonada en Horizonte

De hecho, para terminar el programa, enseñamos rápidamente una herramienta que está haciendo el equipo de Ideas Locas en Discovery de Telefónica Innovación Digital que se llama Verifai, donde lo que hacemos es integrar todos los algoritmos de detección de GenAI y DeepFakes en un portal, en el que puedes comprar textos, vídeos y audios. 

Figura 11: Prototipo de VerifAI hecho por TID

De momento es una versión interna en modo prototipo, pero la pondremos disponible para todos no tardando mucho, que ya llevamos varios meses con ella. Porque hasta que estas medidas estén integradas en todas las plataformas (en Youtube, WhatsApp, e-mail, etcétera), vamos a tener que ser los usuarios los que verifiquemos el contenido y la información que nos llega por todos esos canales.


¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


sábado, julio 04, 2020

Telegram: O restringes quién te puede localizar y llamar o recibe una llamada inesperada de cualquiera

Hoy sábado os voy a contar una sencilla característica que por defecto tiene Telegram que merece la pena que la revises si no la conoces. Es una característica por defecto que me he encontrado en el cliente y me ha parecido que es conveniente bloquearla. Sobre todo cada vez que hay un lío con WhatsApp, y muchos se mueven como alternativa a Telegram sin conocer bien, o sin pararse a revisar, todas las opciones de privacidad y seguridad.

Figura 1: Telegram: O restringes quién te puede localizar y llamar
o recibe una llamada inesperada de cualquiera

Telegram es un sistema muy similar a WhatsApp en apariencia, pero tienen muchas cosas distintas. Una de ellas es que mientras que en WhatsApp se utiliza el número de teléfono como identificador de usuario, en Telegram puedes tener un usuario basado en un UserId, similar al que teneos en Twitter, o en muchos servicios de Internet.

Hasta aquí perfecto, ya que puedes utilizar tu mismo UserId de Twitter, o el que te mole a ti. Lo que está genial porque no depende únicamente del teléfono en el que instales la aplicación. En WhatsApp cuando alguien cambia de número de teléfono hay que avisar a los contactos, y Facebook ha tenido que meter hasta sistemas de avisos y notificaciones cuando se cambia un número de teléfono de un contacto tuyo en WhatsApp.

Entendida la primera diferencia, vamos a ver la segunda característica que existe en Telegram y WhatsApp que hay que entender para decidir si lo que os voy a contar hay que revisarlo o no. Se trata de que tanto en Telegram como en WhatsApp se pueden hacer llamadas OTT (Over The Top) usando servicios de Internet. Tecnologías VoIP que, para evitar ataques man in the middle, en Telegram se pueden configurar para que sean P2P (Peer to Peer), lo que está muy bien porque deja poco rastro de la llamada y además va a cifrado.

Figura 2: Libro de Hacking y Seguridad VoIP 2ª Edición
de José Luis Verdeguer

Pero como en Telegram se pueden hacer llamadas a tu identificador, y éste, como ya hemos dicho puede ser tu número de teléfono - que normalmente solo se lo das a los amigos - o tu UserId que, normalmente, suele ser algo bastante público. Sobre todo si utilizas el de siempre en tus redes sociales y servicios de Internet

Figura 3: Si tienes el UserID por defecto puedes llamarle por teléfono.

Así que, si alguien tiene tu UserId porque has utilizado el mismo en Telegram que en Twitter, te puede llamar en cualquier momento por teléfono y decirte: "Hola Hacker!". Aunque no sé si es lo que deseas tú, que te llamen a cualquier hora cualquier persona. No importa si no has compartido el número de teléfono con la gente que no te tiene en los contactos. Necesitas restringir quién te puede llamar también.

Figura 4: Se puede llamar aunque el número de teléfono
esté oculto y no te tenga en sus contactos.

Pero aún es más divertido. Resulta que Telegram tiene una opción de hacer Global Search y busca por UserId, y por defecto todos los que se instalan la app están en la base de datos de búsqueda, así que te puedes dedicar a buscar a gente por su UserID de Twitter, u otra red social, y ver si le puedes llamar o no.

Figura 5: En la Global Search salen canales, grupos y... userid si buscas bien.

Yo lo he probado con deportistas, personalidades de televisión, y gente popular y he visto que podía llamar a muchos de ellos, y de hecho, antes de publicar este artículo he avisado a algunos de mis amigos para que lo revisaran.

Figura 6: Se busca el UserId se mira la info y se da a llamar. Done.

Y lo hice con mi amigo Amador Aparicio, al que le di una agradable sorpresa al hacerle la llamada, para probar que funcionaba. Pero podría haber sido cualquier otra llamada de cualquier otra persona y a cualquier hora.

Cómo solucionarlo

En las opciones de Privacidad de Telegram tienes una serie de opciones que tienes que configurar. Lo primero es decidir quién va a poder ver tu número de teléfono, que debes restringir para que no lo vea nadie, o solo tus contactos de agenda. 

Figura 7: Opciones de privacidad en Telegram

Después tienes otras opciones como la de quién puede incluirte en grupos - que evitaba el problema del desbloqueo de cuentas bloqueadas en WhtasApp con servicios de terceros como Desbloquéame - o las de quién puede ver la última vez que te conectaste, tu foto, etcétera. 


Figura8 : Desloquéame. Si dejas que cualquiera te agregue a grupos
entonces cualquiera se desbloquea con un tercero.

Como ya suponíamos cuando publicamos Desbloquéame, WhatsApp acabaría por corregirlo y copiar esta opción de privacidad de Telegram, y hace ya unas versiones se añadió en las opciones, así que para que no se te pueda desbloquear nadie, configura esa opción en WhatsApp también - como en Telegram -.

Figura 9: Quién puede añadirte a grupos para evitar Desbloquéame
y pesados en WhatsApp. Se copió esta opción de Telegram.

Pero también tienes la de quién puede hacerte llamadas de teléfono VoIP, que en mi caso, como Telegram no es un canal para mí de voz, lo tengo a Nobody, porque no quiero que me llame nadie. Y si tú no utilizas Telegram como canal de llamadas de voz, deberías tener cuidado con ello, porque te puedes encontrar con llamadas no deseadas.

Figura 10: ¿Quién te puede llamar por Telegram?

Esa opción de quién te puede llamar, cuando entras en detalle, la puedes personalizar de forma granular, para que se adapte a la mejor experiencia de uso de la app que desees. Pero es importante que no dejes las opciones por defecto si no sabes qué significa eso.

Figura 11: La semana que viene os cuento este bug en WhtasApp

PD: En la próxima actualización de seguridad de WhatsApp se corrige un "bug" de privacidad/seguridad que les reporté, así la semana anterior, así que estad atentos al blog, que en cuanto se corrija os lo cuento.

Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)


Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares