Mostrando entradas con la etiqueta biometría. Mostrar todas las entradas
Mostrando entradas con la etiqueta biometría. Mostrar todas las entradas

martes, agosto 26, 2025

Identidades NO Humanas (NHI "Non-Human Identities"): La Gestión de un Riesgo de Seguridad Emergente

Las Identidades No Humanas o Non Human identities (NHI) están últimamente en boca de todos los profesionales de la seguridad de la información y la ciberseguridad que centran su profesión en la gestión de Identidades Digitales. Es cierto que en este mundo Post-Covid, donde se produjo una proliferación del trabajo desde cualquier lugar, utilizando cualquier dispositivo (Anywhere and Anydevice) trajo asociado, en muchos casos, la eliminación del perímetro de red como capa de protección, al igual que las medidas de seguridad a nivel de puesto de trabajo.

Figura 1: Identidades NO Humanas (NHI "Non-Human Identities").
La Gestión de un Riesgo de Seguridad Emergente

Todo esto se produjo gracias a que se comenzó a fomentar que los usuarios se pudieran conectar desde cualquier dispositivo y desde cualquier ubicación. Ee esta manera la identidad, y más concretamente la seguridad en la identidad, pasa a ser el nuevo perímetro, la capa principal y, en muchas casos, única donde puedes poner medidas de seguridad ya que no hay control del dispositivo o la red de conexión desde la que el empleado se conecta.

La mayoría de las empresas entendieron muy pronto este desafío de seguridad y se pusieron manos a la obra implementando medidas de seguridad focalizadas en la protección de la identidad de los usuarios que consumían sus aplicaciones o servicios digitales, donde implementando un factor de autenticación robusto en la autenticación, como pueden ser los basados en Push notificaciones en dispositivos móviles, los basados en Biometría o incluso optando por Passkeys o Yubikeys para obtener una seguridad adicional y eliminar las passwords ya conseguías protegerte en gran medida.

Figura 2: Las Yubikeys

Adicionalmente, si esto lo combinabas con un sistema de “Unknown login location” simplemente geolocalizando la dirección IP pública desde la que los usuarios consumen los servicios digitales, y respondiendo con una verificación de la legitimidad cuando los usuarios intentan conectar de localizaciones que varían significativamente de las habituales, entonces ya estarías gestionando y controlando bastante bien el uso de las identidades digitales, al menos en lo que al proceso de autenticación se refiere.

Identidades No Humanas

Fenomenal, con lo que hemos explicado brevemente en la parte superior entendemos a grandes rasgos el paradigma de gestión las identidades digitales de los empleados (Humanos) que consumen los servicios digitales de nuestra organización. ¿Pero qué pasa con las Identidades No Humanas? O, mejor dicho, ¿Qué son las identidades no Humanas? ¿Por qué son importantes? ¿Hay algún motivo que nos haga pensar que el riesgo relacionado con las mismas está en aumento? 

Pues bien, a estas preguntas intentaremos darlas respuesta en este artículo y así clarificar igualmente si la gestión de las Identidades no Humanas (NHI) es simplemente una moda potenciada por los equipos marketing de los diferentes fabricantes de software de identidad que quieren subirse a este barco, o por el contrario es un riesgo emergente sobre el cual deberíamos empezar a actuar si aún no lo hemos hecho.

¿Qué son las Identidades No Humanas?

Empecemos explicando qué se entiende como una Identidad No Humana, donde de una manera muy simplista podemos definirla como toda aquella identidad que ejecuta una carga de trabajo y/o existe en un directorio de identidades pero que no está relacionado con una persona física (Humana). De esta manera, y desglosando un poco más, entendemos como Identidades No Humanas todas aquellas relacionadas con máquinas y dispositivos, como servidores, contenedores, estaciones de trabajo, dispositivos móviles, dispositivos de OT, dispositivos IOT, etcetera.

A estas hay que sumar todas las identidades relacionadas con cargas de trabajo de software, como cuentas de servicio, APIS, cuentas de conexión a Bases de Datos o Aplicaciones utilizadas por software, cuentas de ejecución de scripts, Robotic Process Automation (RPA), Chatbots, Agentes AI basados en LLMs., y un largo etcétera de cuentas que antes simplemente llamábamos "Cuentas de Servicios" y que ahora se están multiplicando por doquier, y empiezan a ser manejadas por modelos de Inteligencia Artificial o directamente Robots o Humanos Digitales, haciendo muchas más funciones y actividades que lo que haría un simple "servicio".

Por lo tanto, tenemos una gran variedad en cuanto a su tipología y que además se ha incrementado significativamente en los últimos años, donde hemos pasado de tener la sorprendente proporción de 1 Identidad Humana por cada 10 Identidades No Humanas, que era la figura que reportaban los analistas en 2020, a una proporción de 1 Identidad Humana por cada 50 Identidades No Humanas en 2025. Donde a día de hoy, incluso ciertos analistas consideran que la figura puede ser mayor y en algunos casos la proporciona se reporta como 1 Identidad Humana por cada 80 Identidades No Humanas.


Tras observar la tendencia creciente en la proporción de Identidades Humanas versus Identidades No Humanas, y por lo tanto la necesidad de gestionar y proteger cada vez más identidades no humanas, procedamos dar respuesta a la segunda de nuestras preguntas.  

¿Por qué son importantes las Identidades No Humanas?

Son importantes porque en la mayoría de los casos tienen un nivel de privilegios alto y porque la gestión de las mismas no siempre es la ideal, pensemos simplemente si en algún caso tenemos una cuenta de servicio en nuestro directorio activo donde las credenciales llevan tiempo sin rotarse o si tenemos alguna API configurada para su acceso con un Clientid + Secret y si los mismos están o han podido estar "hardcodeados" en algún código, seguro que todos tenemos casos y estoo sin querer meternos en la gestión de los agente de IA que hacen uso de las tools mediante MCP Servers o escenarios más novedosos y de los que somos menos conscientes y por lo tanto tenemos menos sistemas protección, detección respuesta.

¿Está aumentando el riesgo asociado a las Identidades No Humanas?

Una vez hemos llegado a este punto estaremos en posición de determinar si el riesgo con la Identidades No Humanas está en aumento, donde teniendo en cuenta su incremento exponencial en las empresas y organizaciones, combinado con que en muchos casos la identidad es la única capa de seguridad que se dispone, que además estas NHI suelen privilegiadas, y que no se cuenta en la mayoría de los casos con herramientas o sistemas que permitan tener un monitorización y/o trazabilidad del uso y comportamientos de ellas, podemos fácilmente afirmar que las Identidades No Humanas y especialmente aquellas que tengan unos privilegios más altos, representan un botín más grande sin son comprometidas y son un objetivo claro y en aumento para cibercriminales.
Hoy en día ya se conocen públicamente graves incidentes de seguridad que de una manera u otra están relacionadas con la gestión - o errores en esta mejor dicho - de las Identidades No Humanas, como por ejemplo el incidente  de seguridad que sufrió Beyondtrust con la API Key que usaba para varios clientes en software de soporte remoto o el incidente de seguridad con el servicio Dropbox sign tras ser comprometida una cuenta de servicio y sobre el cual el propio Incibe hacía eco.

Conclusiones sobre Identidades No Humanas

Concluimos pues que la gestión de las Identidades No Humanas no es simplemente una moda. Es realmente es un riesgo de seguridad de emergente que muy probablemente ira apareciendo como un riesgo residual, con un riesgo residual cada más alto en los análisis de riesgos de todo tipo de compañías si no se empiezan a implementar controles mitigantes, donde la acciones que deberíamos empezar a plantearnos desde ya para las Identidades No Humanas deberían ser:
  • Descubrir: Para poder gestionar o realizar cualquier otra acción primero debemos conocer nuestras identidades no humanas y esto no es una tarea sencilla
  • Inventariar y clasificar: Debemos al menos ser capaces de asignar un propietario de cada identidad no humana, así como distinguir las privilegiadas de las no privilegiadas
  • Gestionar el ciclo de vida: Por supuesto asegurando la terminación de las identidades no humanas que ya no son necesarias, la creación de nuevas identidades siguiendo las fases pertinentes de aprobación y con un propietario asignado, e idealmente realizando una revisión de privilegios o permisos de manera periódica, idealmente cada 6 meses
  • Gestión de credenciales: Aquí deberíamos tener en cuenta el rotado de credenciales, el cifrado, el almacenamiento de la mismas en vaults de secretos cuando proceda, así como evitar que los secretos estén en repositorios de código o similar donde puedan ser accedidos sin mayores controles.
Una vez que tengamos estos cuatro puntos conseguidos o medio conseguidos, ya podríamos pensar en escenarios más avanzados como la detección de anomalías de uso de Identidades No Humanas o la protección en tiempo real de las mismas.

Saludos,

Autor: Samuel López Trenado, especialista en Gestión de Identidades Digitales

jueves, agosto 21, 2025

Cómo una imagen hecha con Morphing puede generar Match con dos personas en el Reconocimiento Facial del Control de Pasaportes

No es que esta semana tuviera marcado en el calendario que iba a hablar de Facial Recognition & Face Comparison, pero es es el tercer artículo seguido que dedico a esto después de hablar "Sobre la Fiabilidad del Reconocimiento Facial en Imágenes de Cámaras de Seguridad" y "Sobre descubrir dobles de líderes mundiales con Facial Recognition Technology". Hoy hay que hablar de los riesgos de las imágenes hechas con técnicas de Morphing para la detección de suplantación de identidades en controles con Reconocimiento Facial, como el que hay en las fronteras de los aeropuertos, por ejemplo.
Una imagen Morph o hecha con técnicas de Morphing se hace a partir de otras dos imágenes originales, que pueden pertenecer a dos personas diferentes, que pueden ser diferentes sexo, raza o edad. Es un algoritmo de Inteligencia Artificial que mezcla los rasgos de esas dos personas para dar una nueva persona. 

Figura 2: La imagen de la izquierda es una imagen Morph de la
suma de las fotografías de la derecha. De 2 personas distintas.

En esencia se parece a las técnicas de StyleGAN, pero hecho a partir de dos personas reales para que la imagen Morph tenga la esencia de las dos anteriores. Esto provoca que se produzcan situaciones de seguridad muy interesante, que el NIST ha publicado en una documento titulado: "Face Analysis Technology Evaluation (FATE) MORPH. Considerations for Implementing Morph Detection in Operations" y que puedes leer online.
Esto, que inicialmente parece un ejercicio tecnológico visual curioso , puede ser utilizado para crear personas que no existen, como en el caso de las StyleGAN, pero también pueden acabar siendo utilizadas de forma impresas en documentos oficiales como un Pasaporte Nacional al que aplica una persona.
El riesgo, como ha alertado en una presentación del National Institute of Standards and Technology que puedes leer online, es que esa imagen Morph puede dar Match a las dos personas que se utilizaron para construirla.
El riesgo que esto tiene es muy grande, porque una persona puede ir a sacarse el Pasaporte con una Imagen Morph, y luego esa fotografía podría validar a otra persona en los sistemas de Reconocimiento Facial de la frontera, con lo que se estaría colando en un país alguien que no es la persona identificada.
Esto se produce porque los sistemas de Facial Recognition tienen un sistema de validez del Match basado en Thresholds de Similitud, y esto no es algo válido cuando se trata de Verificación de una Identidad, donde hay rasgos que deben ser conclusivos. Por ejemplo, podemos tener un grado de similitud en dos personas en 90% y resulta que son de diferente raza. 
Las imágenes Morph, para que funcione la magia, hacen una manipulación de los rasgos fundamentales como los ojos, la nariz, los labios, etcétera, haciendo manipulación en forma de artefactos que son mezcla de los rasgos de las dos imágenes originales. Esto lleva a que en esos puntos se cree la magia tecnológica de la manipulación, y es lo que permite el problema anterior.
Según la presentación publicada, en los Estados Unidos han tenido más de 1.000 casos de pasaportes hechos con imágenes Morph, ya que estas - si engañan a un sistema de Facial Recognition - con dos personas con cierta similitud y una imagen Morph, pueden engañar a las personas. No todos nos parecemos tanto a nuestras fotos de los documentos de identidad.
El NIST está proponiendo utilizar en todas las aplicaciones para obtención de Pasaportes o Documentos de Identidad, un sistema de detección de Imágenes Morph, buscando detectar los artefactos dejados por la aplicaciones más comunes utilizadas para la generación de estas imágenes, revisar los metadatos de las fotografías, buscando información EXIFF que pueda delatar la manipulación con herramientas digitales.
La segunda parte consiste en hacer análisis entre la imagen de la persona en la cámara de Facial Recognition y la Imagen Morph, buscando rasgos deterministas de la identidad, como una cicatriz o un lunar que falta en la fotografía o en la imagen de la cámara en la frontera, para generar una alerta de seguridad.
En esos casos, aunque la Similitud del algoritmo de Face Comparison sea alta, existe un elemento - la cicatriz - que invalida la identidad, por lo que se debe levantar una alerta de seguridad.
Por último, para detectar si es una Imagen Morph que está siendo utilizado por una o dos personas, se puede tener en cuenta esta distribución entre Identidad y Similitud. Cuando es original, hay un pico de Similitud muy alto, mientras que que cuando es una Imagen Morph da un pico de Similitud más rebajado y, si en la base de datos hay dos personas, la distribución de Similitud se extiende entre más imágenes.
Sin embargo, si usamos la misma base de datos, pero buscando con una Imagen Morph de esa persona (con otra que no está en la base de datos), los índices de Similitud se reducen.
Si las dos personas a partir de las que se ha creado la Imagen Morph está en la base de datos, los resultados de Similitud en el algoritmo de Facial Comparison son menos acentuados, tal y como se veía en la gráfica de la Figura 12.
El uso de las herramientas de Inteligencia Artificial Generativa aplicadas al mundo de las generación de imágenes crea, como hemos visto en este artículo, nuevas amenazas y nuevas brechas de seguridad que hay que mitigar, como se puede observar, hay que estudiar los detalles para poder contra restarlas. Muy interesante este trabajo.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


miércoles, agosto 20, 2025

Sobre descubrir dobles de líderes mundiales con Facial Recognition Technology

Después de publicar el artículo de ayer "Sobre la Fiabilidad del Reconocimiento Facial en Imágenes de Cámaras de Seguridad" alguien me contactó y me contó el estudio de los dobles del presidente de Rusia, del que ha habido mucha especulación en los últimos días sobre si fue él o un doble el que se reunión con el presidente Donald Trump.

Figura 1: Sobre descubrir dobles de líderes mundiales
con Facial Recognition Technology

La verdad es que no había seguido las investigaciones al respecto, y tampoco he podido tener acceso a la fuente original de dicha investigación. Según cuentan, se han cogido imágenes de diferentes momentos, conociendo con exactitud cuando era él en persona, y utilizando un Cognitive Service de Face Comparison, comprobar si es la misma persona o no.
Según siempre la investigación hecha que yo no he podido ver, hay referencias de que en esas tres fotos, el grado de similitud es del 53% y el 40%, y que corresponden a tres momentos cercanos en el tiempo. Supongo que habrán entrenado algún modelo de Machine Learning, o habrá usado directamente un Cognitive Service de Face Comparison para hacer estas pruebas.

Figura 3: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Como están las tres fotos - con la calidad que están - he querido probar algún Cognitive Service de Face Comparation de caras, a ver qué me decía, y los resultados han sido de lo más disparatados por lo poco deterministas que han sido.
En las comparaciones hechas con Pro Face Finder sale, en ambas, que con un más del 70% las tres fotografías hacen Match con la misma persona. ¿Es esto correcto? Pues si leíste el artículo de ayer quién sabe si es un Falso Positivo o un Acierto Positivo.


Como no quería quedarme sólo con una sencilla prueba, he ido a probar otros servicios con Cognitive Services de Face Comparison y he probado otras de las fotografías puestas en duda en las redes sociales y artículos publicados en la red. Primero con las mismas fotos, pero con el servicio de Face Similarity.
Con este servicio, dice que las fotos son de la misma persona con un grado superior al 90% de confianza, lo que genera menos determinismo aún a las pruebas, ya que tenemos datos del 50%, del 70% y ahora del 90%.
La última prueba que hice la realicé con otras nuevas fotografías, en este caso con una de las de Alaska y otra de un poco antes en un vídeo paseando por Ucrania. Usé el servicio de PicTriev que tiene el servicio de Similitud y de Identidad

Figura 8: Putin en Alaska y en Ucrania

El servicio de Similitud dice cuánto se parecen esas caras, independientemente de que sean de la misma persona o no, y el resultado que me arrojó este servicio fue de 66% tal y como podéis ver en la imagen siguiente.
Pero si vamos a ver la parte de Identidad, lo que nos dice este servicio es que las dos fotografías no pertenecen a la misma persona, supuestamente porque hay diferencias estructurales grandes como para que puedan serlo.
¿Quiere decir todo esto algo? Pues no lo sé. Visto los resultados del artículo de ayer "Sobre la Fiabilidad del Reconocimiento Facial en Imágenes de Cámaras de Seguridad" no me atrevería a decir nada, y menos con unas imágenes con tan poca calidad, y sin conocer en detalle cómo ha sido entrenado el Cognitive Service de Face Comparison.  

Y lo mismo sobre la investigación original. Sin tener a los datos sobre la tecnología de comparación de caras, las fotos que se han utilizado en la calidad concreta que se han utilizado, es difícil hacer algo más que "jugar" y "especular" con diferentes servicios de Face Comparison, que ya sabes que pueden llegar a confundirme a mí con George Clooney en algunas fotos pero..... puedes hacer tú las pruebas que quieras también.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


martes, agosto 19, 2025

Sobre la Fiabilidad del Reconocimiento Facial en Imágenes de Cámaras de Seguridad

No es la primera vez que el debate del Reconocimiento Facial ocupa parte de este espacio. En el año 2023, en el artículo titulado "Detecciones policiales erróneas por "falsos positivos" en Reconocimiento Facial" se contaba la historia de cómo una mujer fue detenida y llevada a juicio por un reconocimiento facial a partir de imágenes de una cámara de seguridad, donde se olvidaron el detalle de que en ese momento, la mujer detenida estaba embarazada de 8 meses. Algo que no detectó el algoritmo de reconocimiento facial pero que era muy fácil de comprobar en su momento.
Estos sesgos, fallos y alucinaciones en forma de Falsos Positivos (FP) y Falsos Negativos (FN), los hemos visto muchas veces en los algoritmos de reconocimiento facial. Usando clasificadores basados en técnicas de Machine Learning, vimos cómo un algoritmo podría fallar si las condiciones de calidad de la imagen no eran idóneas, como os publiqué en el artículo de "Cómo un algoritmo de Machine Learning puede tener prejuicios o sesgos y afectar a la vida de las personas. Un ejemplo con un algoritmo al que le gusta la piel clara" escrito por Alberto Rivera y Marcos Rivera.

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

En los modernos Cognitive Services de Reconocimiento Facial, yo he puesto muchas veces el ejemplo de "hallucination" cuando me confundían en fotos a mí con el actor George Clooney, algo que creo que salta a la vista que no debería pasar de ninguna manera, y que sin embargo ha sucedido en más de una ocasión. Si sabemos que hay Sesgos, Falsos Positivos, Falsos Negativos o Hallucinations... ¿Podemos fiarnos de la Tecnología de Reconocimiento Facial (Facial Recognition Technology - FRT) ? Cuando la utilizamos con imágenes de cámaras de seguridad de baja calidad o en condiciones que no son las ideales... ¿son realmente fiables estas tecnologías? 

De esto va el paper que se ha publicado en Junio de este año, titulado "Accuracy and Fairness of Facial Recognition Technology in Low-Quality Police Images: An Experiment With Synthetic Faces" donde se ha hecho un experimento con 50.000 imágenes sintéticas para localizar los Ratios de Falsos Positivos y Falsos Negativos de algunas de las tecnologías de FRT utilizadas en investigaciones policiales.
Si miramos las imágenes con las que cuentan las FRTs para reconocer a las individuos, no son siempre ni a la mejor resolución, ni con la mejor calidad, ni con el mejor ángulo de enfoque, con lo que tienen una dura misión para detectar un Match de Reconocimiento facial que no sea más allá que "un indicio" leve para investigar después, pero parece imposible que se pueda utilizar como una prueba concluyente.
Para localizar estos Ratios de Falsos Positivos (FPR) y de Falsos Negativos (FNR), se ha hecho un experimento en el artículo generando 50.000 imágenes sintéticas utilizando un modelo de StyleGAN3. Estas imágenes se han catalogado después en función de sexo y raza para conseguir una dispersión mayor y probarla con diferentes tipos de personas.
La distribución de estas personas, en función de sexo y raza es más o menos homogénea en sexo, pero en raza se ha hecho una distribución sesgada entre raza blanca, negra y asiática, para probarlo en un entrono similar al que puede tener un país como los Estados Unidos.
Ahora, lo siguiente que se ha hecho ha sido manipular esas imágenes para ponerlas en condiciones similares a las que se tienen las cámaras de seguridad y muchas de las investigaciones policiales, haciendo distorsiones de resolución, brillo, contraste, color, etcétera, y probar en condiciones NO ideales, que es a lo que se tienen que enfrentar las FRT de los cuerpos de seguridad que investigan los delitos.
Ahora, una vez que se tienen las imágenes generadas, se corren los procesos con las FRT para calcular el número de Falsos Positivos (FP), el Total de Positivos (TP), el número de Falsos Negativos (FN),  Total de Negativos (TN), el Ratio de Falsos Positivos (FPR) y el Ratio de Falsos Negativos (FNR) todos ellos normalizados con el porcentaje de del sexo y raza de la población, para hacer una estimación más fiable de estos valores. Todos estos valores se miden haciendo búsquedas con objetivos en la base de datos, y con objetivos que no están en la base de datos - y que deberían no dar ninguna coincidencia -.
Y los resultados, como podríais imaginar son que tenemos un número significativo de Falsos Positivos, de Falsos Negativos, con sesgos más marcados por sexo y raza. En la siguiente tabla tenemos los Ratios de Falsos Positivos y Ratio de Falsos Negativos en función de la degradación de calidad de la imagen de búsqueda.
Pero, si lo miramos por tipo de degradación de la imagen, y por raza y género, vemos que los FPR y FNR son sensiblemente diferentes. Por ejemplo, hay más Falsos Negativos con imágenes de mujeres blancas con mala calidad de contraste que mujeres negras, pero hay más Falsos Positivos en mujeres negras que en mujeres blancas
Pero es que si miramos cualquiera de las degradaciones de calidad, vemos que las FRT tienen diferentes FNR y FPR por raza y sexo, lo que hace que sea más propenso a dar un Falso Positivo o un Falso Negativo si tu raza es una u otra. Lo que hace que haya que poner estas tecnologías como indicios en las investigaciones policiales, pero nunca como prueba definitiva.
Este tipo de investigaciones hacen que corrijamos errores que podemos cometer con la tecnología y que pueden afectar de manera muy seria a la vida de las personas. Por todo ello, si eres de los que te dedicas a hacer informes periciales o análisis forenses, conocer estos datos son fundamentales para ajustar tus conclusiones en su justa medida. Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligen

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


martes, marzo 18, 2025

¡Cloned Voice Detector! & HashVoice: Sellado de audios con esteganografía

De la charla que di en RootedCON 2025 titulada "Laife gets better", donde utilicé una serie de películas de Ciencia Ficción con futuros distópicos como guión de la charla, os he contado ya las dos primeras partes, donde hablaba del BASIC 1.0 Copilot para AMSTRAD CPC 6128 y de Sentimetrics. Hoy quería hablaros de la siguiente parte, que también tiene que ver con detectar DeepFakes - en este caso de audio - y cómo firmar las voces legítimas.

Figura 1: Cloned Voice Detector & HashVoice.
Sellado de audios con esteganografía

Dentro del proceso de detectar DeepFakes - o humanos digitales -, el audio es una pieza fundamental. De esto, en la charla de "Are you takin' to me?" le dedicamos mucho trabajo a detectar voces clonadas utilizando modelos de Machine Learning que nos ayudaran a clasificar en función del espectrograma del sonido. Toto lo tenéis en artículo que os dicho ""Are You Talkin' ta me?" DeepFake Voice en Español & Detección de Voces Clonadas".

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández.

Sin embargo, no siempre es necesario hacerlo con un entrenamiento "from Scratch", ya que algunas de las herramientas de clonación de voz, o de generación de contenido con IA, están utilizando técnicas de Watermarking para que se pueda saber siempre que ese fichero fue creado por ellos. Básicamente la técnica consiste en introducir una marca de agua invisible o inaudible para las personas, pero que ellos pueden localizar, para saber si alguien está usando sus servicios para algo malo, o haciendo un uso indebido de sus tecnologías.
Una historia de esto es lo que hizo la mítica ATARI en el juego CENTIPEDE para demostrar después que le habían pirateado el código, añadiendo para ello un código ofuscado en Hexadecimal, que traspasado a Binario y convertido a Código Morse decía: "COPYRIGHT1980ATARI". Esta idea también la usan muchas de las herramientas de GenAI
En el caso de audio, por ejemplo ElevenLabs tiene una herramienta que te dice cuando un fichero ha sido creado por ellos, que puedes usar en todo momento, y aunque a veces las manipulaciones del fichero de audio, su inclusión en vídeos, o la aplicación de efectos pueden modificar total o parcialmente, la suma de la búsqueda de las marcas de agua más la aplicación de los modelos de Machine Learning, te dan un buen grado de confianza en esos casos.

Cloned Voice Detector

Esto, llevado a data-sets en los que se pueden tener metadatos de con qué herramienta ha sido generado el audio, hace que los detectores de voces clonadas hechos con Machine Learning funcione bastante bien, y luego, una vez entrenados muchos modelos entrenados por herramientas, puedes tener un grado de acierto alto, además de llegar hasta descubrir la marca de agua. 

Figura 5: Cloned Voice Detector

Para nuestros trabajos internos, hemos estado trabajando en Cloned Voice Detector, una plataforma nuestra que nos permite saber vía web o vía API si un audio ha sido clonado o no, que funciona tan sencillo como lo que ves en el vídeo. No es 100% perfecto, pero es una capa de seguridad extra que nos permite verificar la voz en muchos sitios.

HashVoice

Ahora vamos a la parte que queríamos hacer, que con la idea del Watermarking lo que queríamos es que las personas pudieran firmar un audio pensando en poder detener la viralización de campañas de difamación, o falsas noticias por las plataformas sociales. De hecho, un estudio reciente dice que las plataformas de clonado de voz no ofrecen suficientes garantías y que tienen que ayudar a evitar el mal uso de sus tecnologías.

Tiempo atrás pensamos que podríamos hacer algo para eso. Basada en la idea del proyecto Path4 de ElevenPaths. En ese proyecto se buscaba evitar que alguien encontrara un bug en la generación de certificados digitales o en la criptografía y que pudiera firmar malware con firmas legítimas. La idea era que cada vez que se firma legítimamente un programa este ser reporta a una base de datos, que mantiene el hash del binario, la marca de tiempo, el certificado utilizado, etcétera.  Así, cuando se comprueba la firma, se verifica que el hash del fichero y la firma están en el servidor de Path4 y si no... raise a flag!

Figura 8: Registro de patente de HashVoice

Con esta idea pensamos en hacer Hashvoice, que la acabamos de presentar el mismo día de la charla de la RootedCON 2025. Se trata de un sistema para firmar los ficheros de audio que se mandan en cualquier plataforma, con diferentes niveles de seguridad.
  • Biometría: Para poder validar que un mensaje de audio corresponde a un usuario y firmarlo, primero hay que hacer un onboarding biométrico de la voz. Al estilo de cómo se hace el onboarding de FaceID. La idea es poder validar primero la voz de la persona.
  • Detección de Cloned Voices: Por cada audio que se va a sellar se pasan por las APIs de Cloned Voices para detectar si se encuentran marcas de agua de herramientas de clonado de voces, si los algoritmos de Machine Learning de detección de voces clonadas, o de voces emitidas desde un altavoz en lugar de venir desde una persona, levantan alguna alerta.
  • Verificación multifactor: Asociado al servicio de firma se pueden hacer validaciones multifactor, como verificar el dispositivo con el API de Number Verification, información del perfil basada en contexto como horarios, metadatos, ubicaciones, etcétera, o incluso solicitud de un control de autorización para la firma en paralelo con una plataforma como Latch.
Así, con todas esas verificaciones, se realiza el registro del audio, y se pasa al proceso de Sellado del mismo. Para ello, primero se genera la firma del fichero. Se transforma a formato WAV, se calcula el hash, y se genera un JWT (Jason Web Token) que contiene ese hash y el número de teléfono desde el que se ha generado (para este ejemplo hemos usado OpenGateway como verificación multifactor).

Figura 9: HashVoice JWT

Pero como esto sería un problema de privacidad al dejar el número de teléfono codificado en el JWT, lo que usamos es un JWE (Encrypted) que contiene el JWT, por lo que el resultado es el siguiente que podéis ver a continuación, donde no se puede acceder al contenido.

Figura 10: HashVoice JWE

Y ahora el sellado final, que se hace - a parte de guardar en la base de datos del servidor toda la información relativa a este audio - mediante el proceso de introducir un marca de agua en los ficheros de audio utilizando técnicas de esteganografía. En este caso, usamos LSB (Least Significant Bit) que es algo muy típico en imágenes, pero que también se puede hacer con los bits de la onda de audio para no afectar al contenido.

Figura 11: Sellado de audio con HashVoice

Una vez que queda sellado, en el fichero queda almacenada esa información para poder garantizar que ha sido grabado legítimamente, para que se pueda verificar, y para saber que no ha sido manipulado, de tal manera que sería una garantía de lo que se ha dicho para contrastar con una manipulación.

Figura 12: Verificación de Sellado con HashVoice

Esto permite, en un incidente, poder garantizar que el audio que ha sido enviado es el correcto, y que ha pasado todos los controles de verificación contra clonado de voces y verificación biométricas previos. Por supuesto, el sistema reconocería todas las situaciones:

Figura 13: No se puede sellar el audio porque no pasa los controles
de seguridad (Biometría, DeepFake Detector y Contexto)

Figura 14: El fichero no contiene una firma válida

Figura 15: El fichero tiene una firma alterada.

Todo este trabajo lo que daría es un punto de información más para tomar una decisión ante la viralización de un audio, la publicación de una noticia, o el bloqueo de un contenido por su manipulación. Este tipo de herramientas van a ser cada día más necesarias.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares