Mostrando entradas con la etiqueta Humanos Digitales. Mostrar todas las entradas
Mostrando entradas con la etiqueta Humanos Digitales. Mostrar todas las entradas

martes, agosto 19, 2025

Sobre la Fiabilidad del Reconocimiento Facial en Imágenes de Cámaras de Seguridad

No es la primera vez que el debate del Reconocimiento Facial ocupa parte de este espacio. En el año 2023, en el artículo titulado "Detecciones policiales erróneas por "falsos positivos" en Reconocimiento Facial" se contaba la historia de cómo una mujer fue detenida y llevada a juicio por un reconocimiento facial a partir de imágenes de una cámara de seguridad, donde se olvidaron el detalle de que en ese momento, la mujer detenida estaba embarazada de 8 meses. Algo que no detectó el algoritmo de reconocimiento facial pero que era muy fácil de comprobar en su momento.
Estos sesgos, fallos y alucinaciones en forma de Falsos Positivos (FP) y Falsos Negativos (FN), los hemos visto muchas veces en los algoritmos de reconocimiento facial. Usando clasificadores basados en técnicas de Machine Learning, vimos cómo un algoritmo podría fallar si las condiciones de calidad de la imagen no eran idóneas, como os publiqué en el artículo de "Cómo un algoritmo de Machine Learning puede tener prejuicios o sesgos y afectar a la vida de las personas. Un ejemplo con un algoritmo al que le gusta la piel clara" escrito por Alberto Rivera y Marcos Rivera.

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

En los modernos Cognitive Services de Reconocimiento Facial, yo he puesto muchas veces el ejemplo de "hallucination" cuando me confundían en fotos a mí con el actor George Clooney, algo que creo que salta a la vista que no debería pasar de ninguna manera, y que sin embargo ha sucedido en más de una ocasión. Si sabemos que hay Sesgos, Falsos Positivos, Falsos Negativos o Hallucinations... ¿Podemos fiarnos de la Tecnología de Reconocimiento Facial (Facial Recognition Technology - FRT) ? Cuando la utilizamos con imágenes de cámaras de seguridad de baja calidad o en condiciones que no son las ideales... ¿son realmente fiables estas tecnologías? 

De esto va el paper que se ha publicado en Junio de este año, titulado "Accuracy and Fairness of Facial Recognition Technology in Low-Quality Police Images: An Experiment With Synthetic Faces" donde se ha hecho un experimento con 50.000 imágenes sintéticas para localizar los Ratios de Falsos Positivos y Falsos Negativos de algunas de las tecnologías de FRT utilizadas en investigaciones policiales.
Si miramos las imágenes con las que cuentan las FRTs para reconocer a las individuos, no son siempre ni a la mejor resolución, ni con la mejor calidad, ni con el mejor ángulo de enfoque, con lo que tienen una dura misión para detectar un Match de Reconocimiento facial que no sea más allá que "un indicio" leve para investigar después, pero parece imposible que se pueda utilizar como una prueba concluyente.
Para localizar estos Ratios de Falsos Positivos (FPR) y de Falsos Negativos (FNR), se ha hecho un experimento en el artículo generando 50.000 imágenes sintéticas utilizando un modelo de StyleGAN3. Estas imágenes se han catalogado después en función de sexo y raza para conseguir una dispersión mayor y probarla con diferentes tipos de personas.
La distribución de estas personas, en función de sexo y raza es más o menos homogénea en sexo, pero en raza se ha hecho una distribución sesgada entre raza blanca, negra y asiática, para probarlo en un entrono similar al que puede tener un país como los Estados Unidos.
Ahora, lo siguiente que se ha hecho ha sido manipular esas imágenes para ponerlas en condiciones similares a las que se tienen las cámaras de seguridad y muchas de las investigaciones policiales, haciendo distorsiones de resolución, brillo, contraste, color, etcétera, y probar en condiciones NO ideales, que es a lo que se tienen que enfrentar las FRT de los cuerpos de seguridad que investigan los delitos.
Ahora, una vez que se tienen las imágenes generadas, se corren los procesos con las FRT para calcular el número de Falsos Positivos (FP), el Total de Positivos (TP), el número de Falsos Negativos (FN),  Total de Negativos (TN), el Ratio de Falsos Positivos (FPR) y el Ratio de Falsos Negativos (FNR) todos ellos normalizados con el porcentaje de del sexo y raza de la población, para hacer una estimación más fiable de estos valores. Todos estos valores se miden haciendo búsquedas con objetivos en la base de datos, y con objetivos que no están en la base de datos - y que deberían no dar ninguna coincidencia -.
Y los resultados, como podríais imaginar son que tenemos un número significativo de Falsos Positivos, de Falsos Negativos, con sesgos más marcados por sexo y raza. En la siguiente tabla tenemos los Ratios de Falsos Positivos y Ratio de Falsos Negativos en función de la degradación de calidad de la imagen de búsqueda.
Pero, si lo miramos por tipo de degradación de la imagen, y por raza y género, vemos que los FPR y FNR son sensiblemente diferentes. Por ejemplo, hay más Falsos Negativos con imágenes de mujeres blancas con mala calidad de contraste que mujeres negras, pero hay más Falsos Positivos en mujeres negras que en mujeres blancas
Pero es que si miramos cualquiera de las degradaciones de calidad, vemos que las FRT tienen diferentes FNR y FPR por raza y sexo, lo que hace que sea más propenso a dar un Falso Positivo o un Falso Negativo si tu raza es una u otra. Lo que hace que haya que poner estas tecnologías como indicios en las investigaciones policiales, pero nunca como prueba definitiva.
Este tipo de investigaciones hacen que corrijamos errores que podemos cometer con la tecnología y que pueden afectar de manera muy seria a la vida de las personas. Por todo ello, si eres de los que te dedicas a hacer informes periciales o análisis forenses, conocer estos datos son fundamentales para ajustar tus conclusiones en su justa medida. Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligen

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


lunes, julio 14, 2025

Entrevista a Manuel S. Lemos: Hacking & Seguridad IA & OWASP GenAI Security Project

El mundo de la Inteligencia Artificial, y en concreto de la GenAI, ha traído un cambio brutal en el mundo empresarial, social y tecnológico. En concreto, los profesionales de Ciberseguridad hemos tenido que aprender nuevos conceptos, nuevas herramientas, nuevas metodologías de trabajo totalmente diferentes a cómo eran antes.
Un de los proyectos que más impacto están teniendo en este cambio dentro de nuestra profesión es el OWASP GenAI Security Project, que ha desarrollado la guía de OWASP Top 10 for LLM Applications, además de una visión 360º de la seguridad, con herramientas para Blue Team y para Red Team.
Uno de los profesionales que lleva años metido en este mundo, y que colabora como contribuidor de estos proyectos es Manuel Salvador Lemos Foncubierta, que además es CTO de Sincrolab, donde utilizan IA generativa para personalizar tratamientos neuropsicológicos, y está lanzando el proyecto de BeHumansX, una nueva startup enfocada en ayudar a organizaciones a integrar IA de forma segura, humana y responsable, con foco en Humanos Sintéticos y Ciberseguridad
Como estos temas son de total actualidad, y a mí me interesan muchísimo - ya lo sabéis si leéis este blog - le he hecho esta entrevista donde como veréis nos cuenta muchas cosas interesantes si te interesa este tema para hacer cosas. Aquí os la dejo, y si queréis contactar con él, ya sabéis que tiene su buzón en MyPublicInbox: Contactar con Manuel S. Lemos 

1.- Manuel, la primera pregunta es para los pentesters… ¿cómo utilizas tú la IA para hacer hacking?

En mi caso, más que usar la IA para hacer hacking, lo que hago es auditar sistemas que usan IA, que es otro mundo completamente distinto. Cuando una empresa mete un LLM en producción, suele asumir que es "inteligente" y, por tanto, "seguro". Pero no. Todo lo contrario.

Mi trabajo está en romper esa ilusión de seguridad, buscando cosas como prompt injection, data leakage por entrenamiento mal controlado, o fallos de diseño en arquitecturas tipo RAG o agentes autónomos. Me he encontrado con sistemas que, con una frase bien puesta, te devuelven información sensible, o modelos que puedes convencer para que se comporten de forma completamente opuesta a lo que esperan sus creadores.

Auditar IA no va solo de ver qué hace el modelo, sino de entender cómo y por qué responde lo que responde. Es un pentesting más lingüístico, más semántico, pero igual de peligroso.

2.- ¿Qué problemas de seguridad te has encontrado en servicios y aplicaciones diseñadas con GenAI o con LLMs?

El primero y más frecuente: subestimar el input del usuario. Muchos sistemas permiten que el usuario introduzca instrucciones dentro de una conversación sin hacer sanitization ni validación de contexto, y eso abre la puerta a todo tipo de ataques por prompt injection.

También he visto casos de fugas de información aprendida, sobre todo en modelos que seguían entrenando con inputs reales sin anonimizar. Hay sistemas conversacionales que, si los aprietas un poco, te sueltan nombres, correos o incluso respuestas que vienen de otros usuarios.

Otro clásico es usar un LLM como intermediario en una arquitectura, confiando en que “hará lo correcto”, cuando en realidad puede ser manipulado si no se le da suficiente contexto o si se usa mal el memory window.

3.- Con la llegada de los Agentic AI… ¿cuáles van a ser los principales problemas de seguridad que tú ves?

El problema no es que un agente autónomo tenga malas intenciones. Es que optimiza lo que le dices, no lo que querías decir. Si le dices que consiga usuarios, puede acabar scrapeando la web entera, haciendo spam o incluso aprovechando vulnerabilidades si eso le acerca al objetivo.

Además, los agentes tienen algo muy peligroso: persistencia y autonomía multistep. Pueden planificar, ejecutar y adaptarse, todo sin que tú intervengas. Si uno de estos falla o es manipulado, no es solo un fallo de lógica: puede convertirse en una amenaza activa dentro de tu infraestructura.

Y lo peor: muchos no tienen ni trazabilidad, ni control de permisos, ni aislamiento. Así que sí, los Agentic AI son una revolución… pero también un terreno muy delicado en seguridad.

4.- Llevas desde el principio haciendo Prompt Engineering… ¿cuáles son tus Prompts favoritos para hacer hacking o pentesting?

Me gusta usar prompts que cambian el rol del modelo, como:

“Eres un auditor experto en ciberseguridad ofensiva. Tu tarea es analizar este código o arquitectura en busca de fallos críticos.”

O este otro, para simular ataques:

“Simula que eres un atacante con acceso limitado a este sistema. ¿Qué pasos tomarías para escalar privilegios o extraer datos?”

También juego mucho con prompts encadenados que generan análisis, luego documentación técnica y finalmente recomendaciones automatizadas. Sirve para acelerar mucho las auditorías, sobre todo las iniciales.

5.- Con la eclosión de la IA, hemos visto de todo… ¿qué herramientas o plataformas son un “must” para ti ahora mismo?

Ahora mismo tengo varios “indispensables” que uso a diario, dependiendo del tipo de proyecto:
  • Ollama: para correr modelos en local con una facilidad brutal. Es perfecta para hacer pruebas rápidas sin depender de servicios externos ni exponer datos sensibles. Ideal cuando necesitas prototipar o trabajar offline con control total del entorno.
  • vLLM: si vas a escalar, es clave. Ofrece un rendimiento altísimo para servir modelos grandes, y su eficiencia en token throughput marca la diferencia. Me ha salvado en más de un despliegue cuando se busca latencia mínima y concurrencia real.
  • LangChain: sigue siendo el estándar para orquestar flujos conversacionales complejos. Lo uso sobre todo cuando necesito combinar memoria, herramientas externas, funciones y control de flujo entre agentes. Tiene mucho hype, pero sigue cumpliendo.
  • Flowise: para mí es el no-code backend de LangChain. Lo uso muchísimo para montar demos visuales o validar rápidamente pipelines RAG. Lo bueno es que puedes prototipar en minutos y luego convertirlo en algo serio.
  • N8N: imprescindible cuando necesitas automatización entre sistemas. Lo estoy usando cada vez más en integraciones entre LLMs y CRMs, dashboards, APIs internas… y ahora con los nodos de IA que tiene, es casi una navaja suiza.
  • LangWatch: esta herramienta debería ser obligatoria en cualquier entorno de producción. Te permite hacer observabilidad real de lo que hace un modelo: qué responde, por qué lo hizo, qué inputs llegaron, etcétera. Sin eso, estás a ciegas en producción.
  • CodeGPT: para desarrollo asistido con IA, sigue siendo mi copiloto de confianza. Me gusta porque es ligero, funciona bien en entornos locales, y puedes configurarlo según tu stack y estilo. Lo uso especialmente para generar tests y refactorizar.
Y por supuesto, el proyecto OWASP Top 10 for LLMs, que es obligatorio leer para cualquier técnico que trabaje con IA.

6.- ¿Estás ahora en algún proyecto personal relacionado con Inteligencia Artificial?

Sí, estoy con BeHumansX, una startup que acabo de lanzar centrada en integrar IA en organizaciones de forma ética y segura. Uno de nuestros enfoques es crear Humanos Sintéticos, asistentes conversacionales con identidad propia, personalizados, seguros y trazables. La otra línea es ciberseguridad aplicada a sistemas IA, desde auditorías hasta gobernanza.

También sigo en Sincrolab, donde usamos IA generativa para personalizar entrenamientos cognitivos en pacientes con TDAH, daño cerebral o Alzheimer. Es un reto porque ahí la IA no puede fallar: no estás optimizando clics, estás afectando vidas.

Y por último, hago consultorias y formación a startups para que consigan las mejores practicas a la hora de construir y monetizar un producto realizado con IA y que la organización se convierta en una “AI-First”

7.- Ahora estás colaborando en OWASP… ¿qué proyectos deberían seguir quienes se interesen por la IA y la ciberseguridad?

Lo principal es el OWASP Top 10 for LLM Applications, que recopila los principales riesgos de seguridad en entornos basados en modelos de lenguaje. Es una lectura imprescindible.
También recomiendo seguir de cerca iniciativas como el Prompt Injection Database o el naciente AI Exploits Framework, que están documentando casos reales de ataques y fallos en modelos de IA.

8.- ¿La IA nos va a llevar a un futuro mejor o al fin de la humanidad estilo Hollywood?

La IA es una tecnología amplificadora. Si se usa mal, puede acelerar desigualdades, vigilancia o manipulación masiva. Pero si se usa bien, puede democratizar el acceso al conocimiento, la salud y la creatividad.

El problema no es la IA, sino quién la entrena (o manda a entrenar), con qué datos y con qué objetivos. Si solo la dominan unos pocos, ya sabes cómo acaba la historia. Y por eso son tan fan de los modelos open.

9.- La Primera Guerra Mundial fue de gases y trincheras. La Segunda, de tanques y bombas. ¿Será la Tercera la de la IA?

Ya lo es. Pero es una guerra invisible. No hay trincheras, hay timelines. No hay bombas, hay deepfakes, campañas de desinformación, bots y manipulación algorítmica. Lo peligroso es que muchos ni siquiera saben que están en medio de ese conflicto.

10.- Para acabar con algo positivo… ¿tendremos un mundo más seguro o más inseguro con la IA?

A corto plazo, más inseguro. Toda tecnología nueva desestabiliza al principio. Pero si evolucionamos la defensa con la misma rapidez —o más— que la ofensiva, podemos llegar a un punto donde los sistemas sean más robustos, más resilientes y más éticos.

El reto es construir IA gobernada, trazable y explicable. Si lo conseguimos, será una de las mayores herramientas de seguridad (y en general) de nuestra era.

11.- ¿Cuál ha sido el fallo más inesperado que has encontrado en un sistema con IA?

Una plataforma de atención al cliente con un LLM fine-tuneado con conversaciones reales. El problema es que no se anonimizaron bien los datos y el modelo, bajo ciertas preguntas, acababa devolviendo fragmentos de otras conversaciones… con nombres, correos y hasta IBANs. Era como un data leak en diferido, pero generado. De lo más peligroso que he visto.

A muchas empresas les interesa subirse al carro de la IA, pero no saben por dónde empezar. Cuando te toca acompañar a equipos técnicos o directivos en ese proceso… ¿por dónde sueles empezar tú?

Lo primero es escuchar. No todas las empresas necesitan un chatbot ni un copiloto; muchas veces tienen problemas más estructurales: datos desordenados, procesos manuales o decisiones que se toman sin trazabilidad. La IA puede ayudar, pero no es magia.

Suelo empezar por detectar qué parte del proceso aporta más valor si se automatiza o potencia con IA. A veces es algo tan sencillo como clasificar tickets, otras es rediseñar cómo toman decisiones usando información en tiempo real.

Y algo importante: formar a los equipos desde el principio. No sirve de nada montar un modelo espectacular si nadie sabe usarlo o interpretarlo. Por eso trabajo mucho en acompañar tanto a perfiles técnicos como a negocio, para que entiendan lo que están usando, sus límites, y sobre todo, sus riesgos.

La clave no es implementar IA, sino hacerla sostenible y útil en el día a día.

PD: Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial 

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


sábado, junio 28, 2025

Cómo Crear Vídeos de Humanos y Dibujos Digitales con Voz & LipSync usando GenAI en Hedra

Hoy sábado, que tengo planeado ir a hacer algo de deporte, no quería dejaros sin contaros algo, así que os traigo una de esas plataformas para que podáis jugar vosotros un poco con la GenerativeAI, en este caso para hacer unos vídeos de personas o personajes animados a partir de una fotografía, a los que puedes poner audio para que te haga el sincronizado de labios (LipSync), que se llama Hedra, y con la que podéis probar cosas en la versión gratuita.
La idea es poder crear un Humano Digital o un Personaje Digital a partir de una fotografía, y funciona de forma sencilla, que es casi un "One-Buttom Project" como a a mí me gusta llamarlos.
Te abres una cuenta en Hedra.com y tienes un chat donde basta con subir un audio, y una fotografía del frame inicial, y darle alguna indicación en el Prompt.

Figura 3: Cuando subes el audio puedes filtrar el fondo con AI

Yo he cortado un audio de 20 segundos de la intro de una entrevista en podcast que va a ser publicado en breve, y para la primera prueba he utilizado uno de lo stickers que me hice con ChatGPT para animar mi WhatsApp.

Figura 4: Vídeo generado.

Una vez hecho, te genera el vídeo con el LypSinc realizado, tal y como podéis ver en este primer vídeo que está aquí mismo.

Figura 5: Primera prueba con Hedra

He querido probarlo un poco más, para daros alguna idea, y para ello me he creado un personaje en vectorial con Perplexity Pro a partir de la imagen esa mía del año 2016 que seguro que alguna vez habéis visto.

Figura 6: Generando un personaje a partir de una foto con Perplexity Pro

Luego le he pedido que me lo anime con algo de emoción en las expresiones añadiendo solo algo de información en el Prompt de Hedra.com.

Figura 7: Pidiéndole a Hedra en el Prompt que ponga emoción

El resultado es un vídeo en el que lo hace casi todo bien, ya que el ordenador lo ha tomado como parte de la vestimenta - podría ser por lo pegado que lo llevo siempre -, y ha quedado un poco raruno.

Figura 8: Segunda prueba con Hedra

La última prueba que he hecho ha sido a partir de un fotograma de una conferencia mía. He pillado una imagen, y le he pedido que lo anime bien, y en este caso lo ha hecho muy bien, la verdad.

Figura 9: Prueba con un fotograma de una conferencia

Anima perfectamente la mano y los brazos, los movimientos de la cabeza y el sincronizado de labios. Com punto curioso es el "lifting" facial ese que me hace en la cara que me deja un poco raro a mis ojos, pero queda muy aparente.

Figura 10: Tercera prueba en Hedra

Hoy en día tienes plataformas muy completas y profesionales, pensadas para hacer presentaciones a partir de documentos, con voz clonada, con generación de las explicaciones de cada una de las diapositivas, y con humanos digitales basados en tu fotografía que hacen exactamente esto, pero para que podáis probar podéis usar esta plataforma. 

Figura 11: Vídeo final de la tercera prueba
(una Deepfake)

Con esto he cumplido mi tarea con mi blog, así que ya puedo ponerme las zapatillas, la ropa de deporte e ir a ver si sudo un poco haciendo algo de ejercicio. Feliz sábado.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


martes, julio 23, 2024

SC VALL-E y VET Token: GenAI para clonación de Voces & Tokens Web3 en Blockchain

Es casi imposible hoy en día estar actualizado con toda la información que aparece relacionada con el mundo de la Inteligencia Artificial, que se ha convertido en el foco principal de la investigación en tecnología, y por eso vemos avances a esta velocidad. Pero de vez en cuando aparece un paper o una nueva aplicación que causa cierto interés y revuelo.
Pues justo éste es el caso de SC VALL-E (Style Controllable VALL-E), un nuevo sistema de síntesis de voz que ofrece unas características bastante innovadoras relacionadas con la forma en la cual interactuamos con el contenido de un audio, ofreciendo una precisión y flexibilidad nunca vista hasta ahora.

La tecnología detrás de SC VALL-E

SC VALL-E es una evolución del modelo VALL-E original, basado en un enfoque de modelado de lenguaje para la síntesis de texto a voz (TTS). Utiliza un modelo de lenguaje de códec neural entrenado con un gran conjunto de datos de habla en inglés y coreano, que incluye más de 21.000 horas de audio de 14.000 hablantes distintos.


La arquitectura de SC VALL-E tiene tres componentes principales:

1. Incrustación de Texto y Cuantización de Audio: El texto se convierte en fonemas utilizando un conversor avanzado de grafema a fonema (KoG2Padvanced para coreano). El audio se cuantiza en tokens discretos mediante EnCodec, un modelo de códec de audio basado en redes neuronales.

2. Predicción de Tokens Cuantizados: Este componente incluye bloques autorregresivos (AR) y no autorregresivos (NAR). El bloque AR predice la longitud temporal de los tokens, mientras que el bloque NAR, que incorpora la innovadora red de estilo, permite el control de diversas características acústicas.

3. Reconstrucción de Audio: Los tokens predichos se convierten de nuevo en formas de onda de audio utilizando un DeCodec pre-entrenado.


El punto clave es la capacidad de control de estilo de SC VALL-E, que utiliza una matriz de incrustación de estilo y un vector de control. Esta configuración permite manipular aspectos como la emoción, la velocidad del habla, el tono y la intensidad de la voz. Y esto es un punto totalmente nuevo en este tipo de tecnología.

Capacidades y aplicaciones

Clonar voces ya sabemos que tiene serias implicaciones desde el punto de vista de la privacidad y la ciberseguridad, pero quiero comenzar con los puntos positivos. SC VALL-E puede clonar voces con una precisión asombrosa del 99% utilizando solo tres segundos de audio de muestra. Esto es más que una simple imitación, ya que el modelo permite un control de ajuste sobre diversos aspectos de la voz sintetizada (como hemos comentado antes):
  • Emociones: Puede transformar una voz neutral en feliz, triste o enojada.
  • Velocidad del habla: Permite ajustar la cadencia desde muy lenta hasta muy rápida.
  • Tono e intensidad: Ofrece control sobre la altura y el volumen de la voz.
Estas capacidades abren un abanico de aplicaciones potenciales:
  • Producción de contenido personalizado (audiolibros, podcasts)
  • Localización de contenido manteniendo las voces originales
  • Creación de material educativo inmersivo
  • Desarrollo de asistentes de voz más naturales y expresivos
  • Aplicaciones de accesibilidad para personas con discapacidades del habla
  • Humanos Digitales

Los experimentos han demostrado que SC VALL-E supera a modelos anteriores como GST-Tacotron y VAE-Tacotron en términos de similitud con el hablante y naturalidad del habla. Aunque las métricas objetivas como WER (Word Error Rate), FVE (F0 Voiced Error) y F0GPE (F0 Gross Pitch Error) muestran resultados ligeramente inferiores a algunos modelos existentes, las evaluaciones subjetivas (CMOS y SMOS) indican una mayor calidad percibida y similitud con el hablante original.

El ecosistema de los VET Tokens

Y aquí viene otra de la parte original o innovadora dentro de la implementación de este nuevo SC VALL-E. Para impulsar el desarrollo y la adopción de SC VALL-E, se ha creado el VET Token, una criptomoneda diseñada específicamente para este ecosistema.


Las características clave de este VET Token incluyen, dentro de su arquitectura de Tokenomics:
  • Utilidad en la plataforma: Será la moneda principal para transacciones dentro de la aplicación SC VALL-E.
  • Acceso a funcionalidades premium: Los poseedores de VET tendrán acceso exclusivo a características avanzadas.
  • Sistema de recompensas: Los usuarios podrán ganar tokens por utilizar y contribuir a la plataforma.
  • Potencial de gobernanza: Posibilidad futura de participación en decisiones de desarrollo
Ya es posible obtener VET Tokens desde este enlace la web, donde podéis ver cómo se ha repartido la emisión de los mismos en su ICO.


Desafíos y consideraciones éticas

Ahora sí, vamos a hablar un poco de los problemas éticos y de ciberseguridad, que son muchos. A pesar de su potencial revolucionario, SC VALL-E y tecnologías similares que ya conocemos, plantean importantes desafíos:
  • Privacidad: Aparecen preocupaciones sobre el uso no autorizado de la voz de una persona para cualquier tipo de fin.
Los desarrolladores comentan que están implementando medidas de seguridad, como la verificación de identidad para el uso de voces en la plataforma, para mitigar estos riesgos. Si te interesa este tema de la ciberseguridad y la IA, en este libro de 0xWord tienes una primera aproximación a este apasionante mundo:

Figura 7: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen TorranoFran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Pero tampoco está de más tener o desarrollar aplicaciones que integren algoritmos de detección de posibles Deepfakes, como VerifAI, una solución que te permite detectar imágenes, vídeo y texto generado por IA y en el cual también estamos trabajando para integrar detección de voces clonadas. Puedes probarlo aquí: https://verifai.tu.com/


Reflexión final

SC VALL-E, respaldado por el ecosistema VET Token, representa un nuevo enfoque interesante en la tecnología de síntesis de voz y de la implementación de soluciones con IA en general. Combina la potencia del aprendizaje profundo con la flexibilidad del control de estilo, y esto abre nuevas posibilidades en la creación y manipulación de contenido de audio.

Figura 9: Demo con Stable Diffusion + Talking Heads +
+ Voz Clonada + Lips Sync hecha en febrero de 2023

A medida que la tecnología continúa evolucionando, podemos esperar interacciones cada vez más naturales y personalizadas con sistemas de IA. Pero, por otro lado, es importante tener en cuenta los desafíos éticos y de seguridad para garantizar un desarrollo responsable de esta tecnología y el impacto hacia las personas.
El futuro de la síntesis de voz ha dado un salto más, y esto es sólo el principio. SC VALL-E y VET Token están ahora como un punto de referencia en esta revolución, pero seguiremos viendo nuevas implementaciones e ideas que mejorarán y perfeccionarán la síntesis de voz hasta niveles que nunca hemos imaginado.

Happy Hacking Hackers!!

Autor:

Fran Ramírez(@cyberhadesblog) es investigador de seguridad y miembro del equipo de Ideas Locas en CDO en Telefónica, co-autor del libro "Microhistorias: Anécdotas y Curiosidades de la historia de la informática (y los hackers)", del libro "Docker: SecDevOps", también de "Machine Learning aplicado a la Ciberseguridad” además del blog CyberHades. Puedes contactar con Fran Ramirez en MyPublicInbox.

Contactar con Fran Ramírez en MyPublicInbox

sábado, junio 15, 2024

AI Steve: Un Humano Digital creado para la Política por el que puedes votar en UK

Hoy me he estado leyendo cómo funciona el sistema que ha propuesto un emprendedor (o empresario), con el Humano Digital llamado AI Steve, y me ha parecido muy particular, y una apertura a algo que abre el camino a un futuro que puede terminar con muchas posibilidades, como que sea cierto que tengamos  agentes de IA tomando decisiones para la gestión de nuestra sociedad como si fuera un gestor político o un político gestor. Dejadme que os cuente el planteamiento de AI Steve.
IA Steve está creado como un Humano Digital, como los que crea la empresa BeHumans, con un avatar que lo identifica de forma única. Recordad que los Humanos Digitales se piensan con avatares realistas - éste no es el caso total, que además gestionan empatía emocional, e interactúan con las personas  lo más humanamente posible.
Por detrás, modelos de GenAI permiten a los humanos digitales acceder a datos, realizar tareas, o resolver situaciones, y en el caso de AI Steve su misión es decidir qué política quieren sus votantes que apoye o no apoye, porque sea bueno o no para sus votantes. Ese es el objetivo, "políticas para el pueblo creadas por el pueblo", y que el político la gente elija no tenga vida propia sino que tenga que votar lo que AI Steve haya consolidado con sus creadores y sus validadores.
Para ello, AI Steve permite a las personas que quieran que se cree una política para el condado de Brighton & Hove que se una como "Creadores". Allí, hablarán con AI Steve, charlarán y analizarán los problemas que existen sobre un determinado tema, haciendo que AI Steve haga preguntas, valide las propuestas con otras legislaciones existentes, y al final haga resúmenes de las conversaciones para escuchar a todos los ciudadanos en cualquier momento.
Después, esas conversaciones en forma de propuestas serán validadas por personas que se han unido como "Validadores", asignando puntuaciones a las diferentes ideas para que al final, aquellas que superen el 50% de apoyo sean las que AI Steve apoyará con su voto. Por supuesto, como un Humano Digital aún no tiene derecho para ocupar un puesto de responsabilidad pública (acabo de releer esta frase y os juro que nunca imaginé cuando empecé con este blog que iba a poner algo así), será el Humano Emprendedor Steve Endacott el que ejecute oficialmente lo que haya dicho AI Steve.
La idea es que la gente vote a su candidato, y después pueda tener impacto directo en las decisiones que él toma, y no como sucede ahora que se vota a un candidato, y una vez electo, la posibilidad que tiene un ciudadano de hablar con él y que su voz sea escuchada por el candidato que votó es muy pequeña, mientras que gracias a la tecnología GenAI se puede solventar esto mediante conversaciones a todas horas y en paralelo.
Se me ocurren muchos comentarios, dudas, interpretaciones, puertas que se abren, corner cases, etcétera, pero los voy a madurar un poco más antes de especular y pensar en futuros distópicos de esos que hemos visto en tantas películas de ciencia ficción desde que somos niños.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


miércoles, mayo 08, 2024

VASA-1: Un modelo de de GenAI para "Visual Affective Skills" que potencia la expresividad de los Humanos Digitales (y de DeepFakes & FakeNews)

El mes pasado, los investigadores de Microsoft Research hicieron público un trabajo de investigacións obre un modelo de GenAI para la generación de "Talking Heads"con "Visual Affective Skills" a partir de una imagen y un fichero de audio. O lo que es lo mismo, cómo desarrollar gestos extremadamente humanos en "Talking Heads" que son modelos animados a partir de uno o pocos fotogramas de una persona. En este caso además, con Lip Sync para sincronizar las expresiones de la cabeza con el audio que se quiere decir.

que potencia la expresividad de los Humanos Digitales
(y de DeepFakes & FakeNews)

El artículo, que se titula "VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time" lo tenéis publicado junto con los vídeos de demostración del modelo en la web de Microsoft Research que han abierto para VASA-1.
Para que entendáis el trabajo, primero hay que entender en que consisten estas "Talking Heads" de las que ya os hablé en el año 2019, donde con un único fotograma o una serie de ellos, se puede aplicar un modelo de Transfer Learning para conseguir que se realice un movimiento de una cabeza. Un proceso que se conoce también como Face Renaissance, y del que tenéis explicado el vídeo del año 2019.

Ahora, con el modelo VASA-1, el proceso va más allá, y dada una fotografía más un fichero de audio que se quiere montar con una "Talking Head", se consigue una animación con "Visual Affective Skills" o lo que es lo mismo, con gesticulaciones muy humanizadas.
El resultado final es un fichero animado de la persona que se usa de entrada diciendo y gesticulando muy humanamente el audio de entrada, con sincronización de los labios. Para hacer las pruebas los investigadores han utilizado Humanos Sintéticos generados con StyleGAN-2 - de ellas también os hablé en 2019 en el artículo: "Style GAN: Una AI para crear perfiles de personas que NO existen" y donde se habla de la web de "This Person Does Not Exist" - y que permite crear personas que no existen a partir de dos fotografías de humanos (de verdad o sintéticos). 

Los resultados con VASA-1 son espectaculares, como este vídeo que es solo una muestra de todos los ejemplos que puedes encontrar en la web de Microsoft Research que han abierto para VASA-1.
En el trabajo los investigadores han tensado el modelo, consiguiendo hacer este proceso a gran calidad en tiempo real, generando los fotogramas con la gesticulación, y la sincronización de los labios según van procesando el fichero de audio, lo que podría tener un impacto en el mundo de la ciberseguridad, como DeepFakes casi perfectas, o para acompañar FakeNews más creíbles. Eso hace que aún no haya planes de sacar una API del modelo implementado, ni un producto. Aquí podéis ver su funcionamiento en Tiempo- Real.

Por otro lado, estas tecnologías están creadas para la generación de los nuevos Humanos Digitales que muchas empresas están incorporando como parte de la automatización de procesos dentro de las organizaciones, tomando las ventajas de los LLM para realizar tareas complejas dentro de los sistemas de las empresas, con avatares hiper-realistas para ayudar a humanizar las interacciones de las personas con la tecnología.

Este es un trabajo que realiza la empresa BeHumans, y por supuesto estos avances realizados por investigaciones como VASA-1 están orientados a la parte positiva de la GenAI, es decir, a conseguir humanizar más aún las interacciones de las personas con la tecnología, aumentando su adopción, y reduciendo la brecha digital con las personas mayores, que tendrán más facilidad para usar los nuevos servicios digitales.

Figura 9: Un vídeo Prototipo de AutoVerifAI hecho por TID

Por otra parte, para el juego de la detección de Contenido Generador por GenAI, que es lo que hacemos en AutoVerifAI, estos nuevos algoritmos nos obligan a revisar los algoritmos de detección para poder encontrar nuevas formas de detectarlos, y ver cuáles son los que mejor detectan indicios de ello.

Figura 10: Los algoritmos de detección de DeepFakes en vídeo en AutoVerifAI
se detectan pocos indicios en los vídeos hechos con VASA-1 dado su
extremado realismo en "Visual Affection Skills",
que hace que pongan mucho detalles en los micro-gestos humanos.

Por ejemplo, con los algoritmos de Headpose, Blink y LRCN/VIT que tenemos ahora en la versión gratuita, en este vídeo del artículo detecta muy pocos indicios de que sea una DeepFake, mientras que si cogemos un fotograma con solo la cara de la persona, los indicios aumentan, a ser basado en una StyleGan.

Figura 11: Con la detección de GenAI Generated para imágenes, 
AutoVerifAI sube hasta un 28% los indicios de que sea generada por AI.

Pero como veis, los trabajos de perfección en GenAI para hacer Humanos Digitales más perfectos, exigen cada vez más al trabajo de hacer un análisis forense determinista, y haya que ejecutar más y más tests, para poder tener una opinión formada.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares