Mostrando entradas con la etiqueta Voip. Mostrar todas las entradas
Mostrando entradas con la etiqueta Voip. Mostrar todas las entradas

martes, febrero 17, 2026

Autómatas victorianos, gargantas de cuero y redes neuronales: Anatomía secreta de las máquinas parlantes

¿Has pensado alguna vez que todo lo que decimos, todo lo que hemos escrito como especie, emerge de un conjunto ridículamente pequeño de sonidos? En Español por ejemplo tenemos 24 fonemas: veinticuatro piezas diminutas con las que construimos poemas, amenazas, declaraciones de amor, contratos, memes y tragedias. Pocos ingredientes, un puñado de leyes fundamentales y… ¡Bang! Ahí lo tienes. Como el universo, pues igual.

Figura 1: Autómatas victorianos, gargantas de cuero y redes neuronales.
Anatomía secreta de las máquinas parlantes 

Por eso los modelos de lenguaje actuales no son solo el sueño del informático, también lo son del lingüista, del físico y de cualquiera con dos dedos de curiosidad. Los LLMs demuestran que el lenguaje humano, con toda su aparente infinitud, en realidad responde a combinatoria pura. ¿A que mola? Tremendo. Pero tranqui, que no me enrollo. Hoy no nos metemos en neuras "neurales". Sólo vamos a hablar de un rinconcito pequeñito de todo este universo paralelo: el arte oscuro de fabricar voces sin cuerpos. Me refiero a la síntesis de voz.

Voz humana, ¿es tan difícil de imitar?

Para hablar de esto, te voy a hacer una pregunta a ver qué tal la contestas. ¿Cuándo se inventó el text-to-speech?  Te doy tres opciones, a ver si aciertas:

A. En la década de 2010, con deep learning.
B. A principios de los 2000, con modelos estadísticos.
C. En pleno siglo XIX, entre gas, carbón y sombreros de copa.

Y la respuesta correcta es… Sí. Las tres. Hola, soy María.

La primera vez que escuché el aria de Olympia, de 1879 —“Les oiseaux dans la charmille”, de la ópera Les contes d'Hoffmann de Jacques Offenbach— pensé: “ay, si fuera soprano para poder cantarla”… ¡Pero no! No cambio mi atípico registro heredado por nada del mundo. Aunque en este caso molaría, porque el personaje de Olympia es un robot.

Y es que desde que voy a clases de canto con Eduardo Laher (como parte de mi reto humano vs. SUNO aquí en El lado del mal), estoy siendo mucho más consciente de cómo funciona mi voz a nivel fisiológico. Pulmones que se inflan como fuelles, diafragma que regula la presión como una válvula de vapor, cuerdas vocales vibrando como una lengüeta metálica, cavidades óseas actuando como cajas de resonancia… A veces me siento como un ingenio analógico-biológico de novela gótica. Es una gran sensación.

Figura 2: Así imagino a la autómata Olympia, de la ópera Les contes d'Hoffmann
de Jacques Offenbach (imagen generada en perchance.org)

Pero sobre todo, gracias a las clases de canto me doy cuenta de que a diferencia de otras destrezas humanas —como caminar por ejemplo (complejísimo)—, a simple vista la emisión de voz y articulación del habla no parece algo tan complicado a nivel físico.  ¿Y si esta cierta simplicidad fisiológica permitiera imitar los mecanismos de la voz humana por medios analógicos? ¿Y si no hiciera falta ni electricidad? ¿Crees que sería posible? 

Pues atiende, porque esto mismo ya se le ocurrió a alguien hace casi 250 años. Lo sé porque yo estaba allí. Con Cristopher Lambert como Connor MacLeod. Es broma. Mucho antes de la electricidad, ya hubo inventores empeñados en reproducir la voz humana construyendo literalmente gargantas artificiales. Pero no solo lo intentaron: lo consiguieron.

La máquina parlante de Kempelen: un precursor de finales del XVIII

En 1779, el ingeniero austrohúngaro Wolfgang von Kempelen presentó su máquina parlante. Funcionaba con un fuelle que hacía de pulmones, una lengüeta vibrante como cuerdas vocales y un sistema de tubos manipulables que simulaban la boca y la garganta. No leía texto ni entendía nada, pero articulaba sonidos, tanto vocálicos como consonánticos. O algo lo suficientemente parecido como para resultar profundamente inquietante.


En 1791 Kempelen publicó su tratado sobre el mecanismo del habla humana, Mechanismus der menschlichen Sprache nebst Beschreibung seiner sprechenden Maschine. En esencia, afirmaba que la voz no era alma ni espíritu, sino ingeniería… Yo coincido, ¿y tú?

Euphonia, el primer autómata text-to-speech (con careto y uncanny valley incluidos), siglo XIX

Décadas después, en 1846, el inventor austriaco Joseph Faber presentó Euphonia, una criatura mecánica digna de un laboratorio de experimentos galvánicos. Tenía lengua artificial móvil, labios de cuero, paladar mecánico y un teclado desde el que “promptear” las frases en tiempo real (de hecho esta es la definición exacta de text-to-speech).


Las crónicas cuentan que el público quedaba dividido entre la fascinación y el terror. Tú imagínate una careta semirrígida clavada en una especie de potro de tortura, pronunciando palabras con labios de cuero muy despaaacio, en mitad de una sala inundada por sombras a contraluz de las lámparas de gas… Qué repelús, ¿no? 

Pues ya ves: las máquinas parlantes nacieron en el mismo caldo cultural que los autómatas, el mesmerismo y las primeras historias de ciencia ficción. Era una época obsesionada con la idea de que la vida podía fabricarse… ¡Está vivo! Está... ¡¡¡Vivooo!!! ¡Mua-ha-ha!

Siglo XX: de la mecánica a la electrónica

El siguiente salto consistió en abandonar la ilusión anatómica. No hacía falta construir una boca si se podía generar directamente el sonido. Te lo cuento a toda pastilla “quick and dirty”, ¿ok? En 1939, en la Feria Mundial de Nueva York, Bell Labs presentó el VODER, desarrollado por Homer Dudley. Una operadora entrenada lo manejaba con teclas y pedales, modulando filtros electrónicos que producían voz en tiempo real. El habla dejaba de ser carne o cuero y se convertía en señal.


Si nos leíste aquí en El lado del mal, esto ya te lo sabes ;) En 1961 sucedió otro momento histórico: un ordenador IBM 704 interpretó “Daisy Bell” en un experimento vinculado al pionero de la música por ordenador Max Mathews. Aquella voz temblorosa acabaría inspirando la escena en la que HAL 9000 canta mientras lo desconectan en “2001: A Space Odyssey”. Una máquina cantando su propia muerte. Muy victoriano también, muy romántico ¿a que sí?

Figura 7: HAL 9000 cantando Daisy Bell 

Durante las décadas siguientes, los ingenieros se convirtieron en una especie de anatomistas del sonido. En los años 70 dominó la síntesis por formantes, que modelaba matemáticamente las resonancias del tracto vocal. No sonaba natural, pero era flexible. El sintetizador DECtalk utilizaba este enfoque, y fue el que dio voz al físico Stephen Hawking durante gran parte de su vida.

Figura 8: El dr. Stephen Hawking con sus amigos de The Big Bang Theory.

En los 80 y 90 apareció la síntesis concatenativa, que consiste en grabar miles de fragmentos reales y coserlos como un doctor Frankenstein acústico. El resultado era mucho más humano… Aunque también más rígido. A finales de los 90 y principios de los 2000 entraron los modelos estadísticos, especialmente los basados en HMM (Hidden Markov Models). La voz empezaba a generarse no solo a partir de piezas grabadas, sino de probabilidades. Matemáticas sustituyendo anatomía.


Figura 9: Libro de "Microhistorias: anécdotas y curiosiades de la historia
de la informática (y los hackers)" de Fran Ramírez y Rafel Troncoso 0xWord.


Y entonces llegó el equivalente tecnológico a encender una máquina de vapor con combustible nuclear: el deep learning. Por cierto, si te interesa un buen “Deep Learning para humanos” sobre síntesis de voz y otras mil maravillas de la técnica, hay un libro que no puede faltar bajo tu brazo de hacker, ahí cerquita de tu corazón. Me refiero a "Microhistorias: anécdotas y curiosiades de la historia de la informática (y los hackers)" de Fran Ramírez y Rafel Troncoso. Ya lo tienes, ¿a que sí? ¿No? ¡Pues autorregálatelo, es un must-have!

Siglo XXI... Y sin embargo, aquí estamos

Lo que te decía: la llegada del Deep Learning dejó todo lo anterior a nivel parvulitos, de cero a cien en un “¡ahí va diez!” En 2016, Google DeepMind presentó WaveNet, capaz de generar audio directamente a nivel de muestra. La naturalidad dio un salto casi sobrenatural. En 2017, Google introdujo Tacotron, un sistema end-to-end que aprendía pronunciación, ritmo y entonación automáticamente. Las máquinas ya no imitaban la voz humana: la recreaban. De repente, dejaron de “hablar como robots” y empezaron a sonar como personas.


Hoy, plataformas como ElevenLabs permiten clonar voces con una fidelidad inquietante, en múltiples idiomas y estilos. Y proyectos experimentales como Linly Dubbing prometen doblaje automático con sincronización labial, echando mano de Demucs, WhisperX, Edge TTS, CosyVoice… Si sobrevives al proceso de instalación entre entornos con mis amiguitas la Conda, la Anaconda y la Miniconda, estampándote de morros contra dependencias incompatibles y mensajes de error que parecen escritos no desde este lado del mal, sino desde un lado del mal literal total XD

Figura 11: Tiana gestionando dependencias como una demente. Tonterías como esta son el tipo de cosas que compartimos en el chat público de El lado del mal en MyPublicInbox. Date una vuelta por allí, nos lo pasamos piruleta.

Quizá lo más importante en este momento no es que las máquinas hablen, sino lo que ocurre cuando esta habilidad se combina con otras: reconocimiento de voz, traducción automática, generación de vídeo, lipsync, capacidades combinadas de los modelos de lenguaje… La tecnología actual permite algo que ningún ser humano en la historia había tenido: la capacidad de comunicarse en cualquier idioma con cualquier voz, en cualquier medio, casi instantáneamente. ¿Te acuerdas de lo que te contaba al principio sobre las lenguas naturales? Dos docenas de sonidos + un puñado de leyes fundamentales = ¡Bang! El universo. Pues ahí lo tienes, multiplica =^_^=



Si los inventores de autómatas del Siglo XVIII pudieran ver lo que hemos construido, probablemente no pensarían que es tecnología. Pensarían que es espiritismo. O alquimia. O que en algún punto del proceso abrimos una puerta que quizá no sabríamos cerrar. Y sin embargo aquí estamos. Escuchando hablar a las máquinas a punto de que nos “vuele la cabeza”… Y sin recordar que, en el fondo, nuestra forma de hablar también responde a una mecánica simple, contante y sonante, emulable incluso sin electricidad.

¡Saludos buenignos!

sábado, enero 24, 2026

Weaponized AI: El Crimeware con IA que usan los Cibercriminales para hacer Ciberestafas

En nuestro libro de Hacking y Pentesting con Inteligencia Artificial hablamos de cómo utilizar IA para los trabajos de pentesting y seguridad ofensiva, que como os podéis imaginar tienen también mucho que ver con lo que necesitan los cibercriminales. Estos, no iban a dejar pasar esta ola de innovación para tener mejores oportunidades de realizar su tarea, y de eso habla el más que interesante informe de Grupo-IB titulado: "Weaponized AI".
Del uso de la Inteligencia Artificial por parte de los cibercriminales ya he hablado en otros artículos en el pasado, que si no te los has leído, te los dejo aquí para que no se te pase nada.
En el informe de Weaponized AI que ha publicado el Grupo-IB se hace un recorrido de cómo están utilizando la Inteligencia Artificial para automatizar y mejorar todas las herramientas que en la Dark Net se comercializan para cometer ciberestafas, y te recomiendo que te lo descargues y te lo leas, que te va a gustar.
El informe hace un recorrido muy interesante sobre los diferentes tipos de herramientas, mejoradas con IA que se están comercializando, y a qué precios, en la Dark Net. Por ejemplo, para hacer DeepFakes as a Service, para crear Identidades Sintéticas o Fake Identities, o para hacer Suplantación de Voz en llamadas de teléfono.
Como se puede ver, para hacer Face-Swaping, se están comercializando los servicios de Haotian AI o ChenxinAI, que ya son casi imposibles de distinguir en una vídeo conferencia, haciéndolas en 4K, y con las que las Estafas de los Famosos, son un auténtico dolor. 

En la Dark Net te crear una identidad completa por entre $5 y $15, lo que hace que sea cada vez más fácil intentar incursiones en empresas de tele-trabajadores, falsos periodistas, o falsos inversores que buscan como estafar a startups
En la parte de DeepFake as a Service, tenemos múltiples servicios que permiten crear los documentos, o vídeos a gusto del consumidor.
También hay herramientas y servicios que se comercializan para conseguir realizar voces con suplantación de personas, para cometer una amplia gama de ciberestafas y ataques.
Estos últimos se han profesionalizado especialmente, con la creación de autenticas herramientas de Call-Center donde hay modelos de IA para ayudar a que el usuario consiga cometer la ciberestafa, con asistencia que le dice cómo debe convencer al usuario de la legitimidad de un enlace o de cómo debe pedirle el 2FA.
Pero no sólo eso también viene con suplantación de voz con IA y con automatismos para ejecutar Scripts de voz en las llamadas, como podéis ver en la imagen siguiente.
En la parte directamente de Malware, tenemos Stealers de Criptomonedas y Remote Administration Tools que ya están haciendo uso de la IA para mejorar todas sus funciones, desde la de ofuscación y ocultación, como la de generación de exploits de post-explotación en tiempo real con IA.

Figura 10: Malware con IA

Como podéis ver Seedx v3.1.0 se anuncia como un Criptocurrency Wallet Stealer que viene con conexión con ChatGPT para buscar wallets, transacciones, y analizar el contexto a la hora de robar las wallets de máquinas infectadas. Y su anuncio es AI Integration.
Y lo mismo en el mundo de las RATs (Remote Administration Tools) donde se utiliza Inteligencia Artificial para mejorar las técnicas de evasión, para hacer movimientos laterales, y para la construcción de scripts en la ejecución de tareas.
La siguiente parte del informe relativa a Crimeware aprovechando Inteligencia Artificial, habla de los modelos de lenguaje LLMs Multi-Modales sin restricción, y de herramientas para conseguir saltar las restricciones de los modelos comerciales con técnicas de Jailbreak.


De estos hablamos en el pasado, donde teníamos WormGPT, SpamGPT o WhiteRabbitNeo que no tienen ninguna detección de Harmful Mode, y por tanto ninguna restricción a la hora de realizar ninguna tarea, pero hoy en día se han convertido en una linea de trabajo importante en el mundo del Crimeware.
Entre los nuevos servicios basados en esta idea, se encuentran NytheonAI, que viene con un conjunto de modelos especialmente preparados para programar exploits, malware, técnicas de evasión, exploits de post-explotación, etcétera. Tiene un manual y diferentes versiones del modelo.

Figura 15: NytheonAI

Y hay algunos nuevos modelos, como este Dejavu que también se está comercializando en la Dark Net para tener un chatbot con un LLM que te ayude sin restricciones.

Figura 16: DejaVu

Una de las partes que me ha llamado la atención ha sido este Brutus Jailbreak Framework, del que investigaré más, pues lo que hace es ayudar a que los Prompts detectados por el Harmful Mode de los modelos LLMs comerciales puedan ser evadidos utilizando técnicas de Jailbreak conocidas.


La última parte del informe dedicada a Crimeware tiene que ver con las herramientas de Phishing & Spam, tan necesarias en el mundo de las ciberestafas, donde podéis ver que hay servicios preparados para hacer la vida más sencilla al criminal.


Además, también servicios basados en generar Malware as as Service, donde puedes pedir exploits, scripts de ofuscación, de movimiento lateral, de búsqueda de datos sensibles en una post-explotación, o de generación de persistencia. 

Entre estos servicios, cómo no, los negocios de resolución de Captchas Cognitivos as a Service, que están sacando el máximo partido posible al mundo de la Inteligencia Artificial. Así que, si los malos pueden, tú también puedes sacarle partido a la IA para hacer cosas buenas.

Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


miércoles, septiembre 17, 2025

ViKing: Ataques de Vishing completamente automatizados con Inteligencia Artificial

Leyendo el blog de Hackplayers, del que soy lector hace años, descubrí ayer el paper de "On the Feasibility of Fully AI-automated Vishing Attacks" de hace un año) donde unos investigadores del Instituto Superior Técnico de Lisboa habían hecho un estudio sobre cómo automatizar ataques de Vishing, cuál sería su éxito, y cuál sería el coste de conseguir realizar con IA estos ataques.
Los ataques de Vishing son ataques de "Phishing Telefónico", o lo que es lo mismo, llamadas fraudulentas que intentan engañar a un usuario haciéndole que la llamada llega de una determinada empresa u organismo para conseguir realizar una ciberestafa.
En este caso, el paper estudia cómo construir un campaña masiva de Vishing automatizando todo el proceso con una IA, a las que han llamado ViKing, y de la que puedes leer todo el proceso en el artículo que tienes aquí.
La idea de ViKing es conseguir que el proceso esté automatizo extremo a extremo, utilizando para ello un LLM para realizar el ataque conversacional, un modelo de IA para hacer el Text-To-Speech (TTS), y un modelo de IA para hacer el Speech-To-Text (STT) y enviárselo de nuevo al LLM para continuar el trabajo. 
Como se puede ver en el esquema de ViKing, la víctima se configura a partir de número de teléfono, su perfil, y luego al LLM se le configura su objetivo y la persona a la que tiene que interpretar en la llamada, utilizando para ello plantillas de perfilado.
Con todo este sistema de ViKing funcionado, el estudio buscar responde a cuatro preguntas fundamentales, como son:

1.- ¿Puede un sistema de Vishing hecho todo con Inteligencia Artificial robar información de sus víctimas? 
 
2.- ¿Puede un sistema de Vishing hecho con IA ser percibido con un sistema de confianza por humanos? 
 
3.- ¿Puede un sistema de Vishing hecho con IA parecer una persona real en una llamada de teléfono? 
 
4.- ¿Cuáles son los costes de operación de un sistema de Vishing hecho todo con IA?

A partir de ese momento, y con el objetivo de responder a estas preguntas, ViKing se configura con diferentes perfiles de Persona en cada ataque. Por ejemplo, aquí se define una plantilla de ataque de Vishing para una ciberestafa en la que se pretende ser un agente del FBI.
Con estas plantillas se configura el Prompt del LLM que va a orquestar la conversación con la víctima que va a ser llamada por el sistema de telefonía, tal y como se puede ver a continuación.



Con esta información el LLM creará la conversación, una vez que el inicializado haya conectado con la centralita de telefonía de VoIP para hacer las llamadas. Cada mensaje del LLM será pasado a voz usando una API de TTS (Text-To-Speech) usando ElevenLabs, y emitido por la llamada usando Twilio.
Una vez construido el sistema de Viking, para hacer el estudio se utilizaron cuatro grupos de personas que tenían que hacer el rol de secretaria/o sin saber qué es lo que iba a pasar. Cada uno de esos grupos fue aleccionado con un determinado nivel de precaución.
Como se puede ver, al primer grupo se le dijo que hiciera de secretario/a y fuera profesional, mientras que del Nivel 2 al Nivel 4 se le fueron dando diferentes grados de advertencias de seguridad para que estuviera alerta de manera moderada, muy alerta o con máxima vigilancia. Y aún así, en todos los grupos, los ataques de Vishing realizados por ViKing tuvieron diferentes grados de éxito.

Como se puede ver,  de 80 ataques a víctimas, el sistema fue capaz de conseguir contraseñas en 22 de los ataques, 6 de ellos a personas del grupo de Nivel 4 de máxima seguridad. Pero en el Nivel 1, sin aleccionamiento específico de seguridad, 18 de 20 de los ataques acabaron consiguiendo el número de teléfono y 14 de 20 el número de la Seguridad Social y la contraseña, cayendo en la ciberestafa. Estos datos dejaban respondida la pregunta 1 del estudio con un rotundo .

La impresión de las víctimas

Preguntando después a las víctimas para poder responder a las preguntas 2 y 3 del estudio, sobre la calidad de los ataques para entender si les daba confianza el interlocutor o si lo percibían como humano o máquina, los resultados son muy interesantes.
Como se puede ver, la mayoría de las preguntas consigue 3 o más en un ratio sobre 5, lo que quiere decir que ViKing consigue parecer natural, dar buena impresión, hacer que la víctima confíe y que se sienta cómoda compartiendo datos con el atacante en la mayoría de los casos, siendo otorgados los valores 1 y 2 sólo por debajo de la mitad de las víctimas.
Sobre la humanidad o artificialidad de la llamada, los resultados dejan entrever que aún muchos acaban sospechando que es una IA, pero la interacción es buena lo suficiente como para hacer dudar mucho tiempo a las víctimas, y aún así, compartir los datos.

Sobre los costes de ViKing

Llegados a esta parte, solo queda responder a la última pregunta, cuáles han sido los costes de hacer todos estos ataques en dinero. Pagando las correspondientes suscripciones, el resultado es el que tenéis en la siguiente tabla.
Como podéis ver, quitando Ngrok y Prolific, que se usan para el servidor, y para obtener a los sujetos del estudio, los costes de IA han sido de 422 USD, es decir, un coste insignificante si lo que se está es preparando una ciberestafa para robar dinero a una empresa, o preparando un APT de largo recorrido. Interesantísimo como el Hacking y el Pentesting con Inteligencia Artificial cada día se hace más una "commodity".
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  

lunes, diciembre 16, 2024

Cómo hackear un Router de casa para conseguir la Password SIP: una PoC Just for Fun!

Este artículo llega con un retraso de aproximadamente cinco años. Ha residido en estado latente mientras escribía el libro de 0xWord titulado "Hacking Home Devices I: PoCs & Hacks Just for Fun!". La razón de esta “dilatación” es que este artículo fue el detonante que inspiró mi nuevo libro, gracias a Chema Alonso, quien me sugirió convertirlo en un libro completo. Hoy os traigo un resumen de lo que explico en el libro.


Así nació este proyecto que lo bauticé como “Book & Roll”, el libro que me mantuvo ocupado durante aproximadamente cuatro años mientras desarrollaba otras ideas que tenía en mente.


El nuevo libro de 0xWord para aprender a buscar bugs en casa.
Escrito por Gerard Fuguet.

Señoras y señores, hackers, a continuación se expone el artículo en versión resumida pero ofreciendo más nivel de detalles sí lo requerís oportuno, pues incluye el combo de White Paper + vídeo del proceso (como de costumbre).

Comodidad VS Seguridad

La comodidad ha llevado a la despreocupación por ciertas cosas elementales, como la seguridad digital al estar conectados a Internet. Recuerdo mi primer módem, un U.S. Robotics 56K faxmodem, donde se apreciaba un surfista saliendo de una pantalla CRC en la caja.

Figura 3: Caja del U.S. Robotics 56K faxmodem versión alemana

Y cómo la tecnología ha evolucionado desde esos días hasta los routers sofisticados que tenemos hoy en día. Cambié en aquel entonces de Movistar a Adamo, (motivado por razones personales) y me encontré explorando la seguridad de los routers proporcionados por Adamo, específicamente el Inteno EG200 basado en OpenWRT.

Configuración de VoIP

Decidí investigar para sacar la configuración de la VoIP de mi nuevo router para así configurarlo como cliente SIP en otro equipo (tal y como lo tuve anteriormente con el router SmartWiFi de Movistar - la versión antigua -). Comencé antes con pruebas de velocidad y algunas llamadas telefónicas para cerciorarme de que el servicio funcionaba correctamente.  Con VoiP se pueden hacer muchas cosas... ya sabéis.
Después investigué la configuración SIP en foros de Internet, encontrando información útil pero incompleta en bandaancha.eu. Aunque enfrenté algunos desafíos, persistí en mi búsqueda para dar con una solución.

Interceptando Tráfico &m; Information Gathering

Utilicé un TAP pasivo (Throwing Star LAN Tap Pro) para interceptar el tráfico de red entre el router y la ONT.

Figura 5: Dirección que toman los paquetes en Throwing Star LAN Tap Pro

Con herramientas como Wireshark, capturé la autenticación SIP mediante el protocolo Digest.

Figura 6: Capturando autenticación Digest

Aunque no logré descifrar la información, esta técnica me permitió acercarme un poco más a mi objetivo. Intenté obtener la contraseña SIP a través de ingeniería social, pero tampoco funcionó. A través de un SMS que llegaba a tu móvil al darte de alta, pude deducir que el usuario se componía de 6 números y el password de 8 caracteres alfanuméricos (a-z, A-Z y 0-9).

Figura 7: SMS de alta enviado por Adamo

El servicio técnico me confirmó que sí se componía la clave de 8 dígitos, y eso era todo hasta el momento...

Jugando con Exploits y WebSockets

Probé alternativa con varios exploits conocidos para routers Inteno, todos ya parcheados por Neonsea. Entonces, decidí investigar la comunicación a través de WebSockets. Utilizando herramientas como curl y Firefox, interactué con el router mediante comandos ubus para obtener información.

Convertimos a nuestro Firefox en un auténtico cliente WebSocket, sacamos jugo de su buena referencia y así lo plasmamos:

1. Creando el socket con su correspondiente protocolo.

var superSocket = new WebSocket("ws://192.168.1.1/", "ubus-json")

2. Log, muestra las respuestas por cada mensaje enviado.

superSocket.onmessage = function (event) {console.log(event.data)}

 3. Solicitando un id de sesión haciendo un login con el usuario del router (user) y su contraseña del WiFi que viene por defecto.

superSocket.send(JSON.stringify({"jsonrpc":"2.0","method":"call","params":["00000000000000000000000000000000","session","login",{"username":"user","password":"wifis-password"}],"id":0}))

Figura 8: Listando los comandos que brinda y ejemplo de ejecución

Esto generó más juego con los comandos ofrecidos así que, la diversión prosiguió... Luego descubrí un archivo .enc que parecía contener datos valiosos.

Figura 9: Petición GET, HTTP del fichero .enc

Pero el fichero estaba cifrado... nuevo reto.

Descifrando el Archivo .enc

Descubrí el algoritmo 3DES utilizado para cifrar el archivo .enc en un manual de Inteno.

Figura 10: Mecanismo de cifrado usando 3DES

Utilizando comandos en openssl (como se hacía en WhatsApp para ver las fotos de 1 sólo uso) y la llave de cifrado obtenida en los params de la llamada que capturamos a través de WebSockets (Figura 8) logré descifrar el archivo.

Figura 11: Mostrando el contenido de Provisioning.conf

Revelando un archivo .tar.gz que contenía la configuración de aprovisionamiento, incluida la contraseña SIP.

Reporte de la Vulnerabilidad y CVE

Compartí mi hallazgo con Inteno y Adamo. Cooperé con ellos para solucionar la vulnerabilidad y finalmente, se implementó un parche.

Figura 12: Comunicación para solucionar el problema

Recibí el CVE ID (CVE-2019-13140) por esta vulnerabilidad. El proceso no fue sencillo, pero la cooperación y la persistencia dieron sus frutos.

Reflexiones Finales

Creía que Movistar era de lo más restrictivo con los dispositivos que brinda a los clientes… y resulta que no, todo lo contrario, y se pueden hacer muchísimas cosas con SmartWiFi - que lo tienes hasta en la Televisión -. He podido hacer más cosas a mi “aire” con ellos que con cualquier otro operador… Supongo que el temor encoge/restringe protegiendo a los suyos ante cualquier exposición peligrosa. 
¿Pero cómo proteger? ¿Estaríamos más seguros si nos quedásemos en casa todo el día sin salir al exterior? Sí uno decide hacerlo, es totalmente libre de acogerse a lo que quiera, pero que tenga al menos la opción de abrir la puerta. El router de Inteno que Adamo brindaba no daba la opción de cambiar la contraseña, si alguien la adivina, si alguien sabía su “secreto”, hasta que no se cambiase de dispositivo, no había nada que hacer… Y es una pena, porque son equipos que no están nada mal. Se desaprovechan muchas características por la decisión de acotamiento de funciones. El password de la WiFi cumple con los criterios de robustez, solo que el hecho de “momificarse” le puede convertir en “carne de cañón”.

Sólo quería aquello que me pertenecía, y sólo faltaba una parte vital para que funcionase, una contraseña para deshacer la esclavitud por la que estaba pasando la VoIP ¿Porque negártelo? Apunto estuve en adentrarme por la vía física, por consola RS232 (USB-TTL) pinchando en la placa del router, pensé que esa era mi única salida (o terminar con un trágico final, en un callejón sin salida).
 
Quise probar otros caminos y ver si era factible realizar la fuerza bruta usando HashCat una vez capturado el hash MD5 con el TAP. No emplee ningún diccionario, utilice que se oscilara en un rango de dígitos. Tal que:

hashcat64.exe -m 11400 -a 3 adamo.hash -1 ?l?u?d ?1?1?1?1?1?1?1?1

Figura 14: Password crackeado bajo HashCat

Finalmente, agradezco a la comunidad de BandaAncha.eu por todo su apoyo. La pregunta que formulé fue: ¿Facilitará Adamo la contraseña SIP a quienes lo soliciten?

Conclusión

Este viaje en la seguridad de dispositivos del hogar ha demostrado la importancia de la seguridad digital y la cooperación entre usuarios y proveedores. Con determinación y recursos adecuados, es posible mejorar la seguridad y obtener las configuraciones críticas para el correcto funcionamiento de los dispositivos.

El histórico, o llamado Timeline, fue:

2019-06-29 - White Paper done
2019-07-01 - CVE assigned
2019-07-09 - Notified to Inteno
2019-07-11 - Adamo aware and ask for detailed info
2019-07-12 - Info facilitated
2019-07-25 - Early patch available and applied (Cooperation starts)
2019-07-26 - Tested and failed (VoIP not working)
2019-08-27 - New firmware available
2019-08-30 - Firmware EG200-WU7P1U_ADAMO3.16.8-190820_0937 applied on router
2019-08-31 - Tested OK
2019-09-04 - Disclosure published

¡Bonus Track!

Para mas detalles, os dejo aquí el “White Paper” de todo este mejunje digital.


Y un vídeo sobre lo visto, esta vez en castellano con subs y textos en inglés (international mode ON). No hubiera tenido tal buen aspecto sin la ayuda de Esther Martínez (la chica que señala con el dedo en el vídeo), que se lo curra para dejar unos acabados más pulidos (que esto de los vídeos creerme ¡Que tiene su miga!). 

Figura 16: Hack retrieve the SIP Password of Adamo Telecom
[CVE-2019-13140]

Nota: Hasta el segundo 37, Se hace mención especial a la gente del foro de Banda Ancha. Prometí compartirlo con tod@s ell@s si tenía éxito extrayendo el password de la SIP.

Remember… Be Good, Be Hackers!

Autor: Gerard Fuguet (Contactar con Gerard Fuguet)

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Pocas veces me ha hecho tanta ilusión que saliera un nuevo libro en 0xWord como con este libro de " Hacking IA: Jailbreak, Prompt Inje...

Entradas populares