Hace tiempo que tenemos en el mundo de la tecnología la llamada llegada Muerte de la Ley de Moore, porque los límites físicos están haciendo imposible crecer exponencialmente en una integración mayor con las tecnologías actuales. Eso hace que se estén trabajando desde hace mucho, mucho tiempo, en otras soluciones basadas en aproximaciones físicas totalmente diferentes, como son los ordenadores cuánticos o la computación fotónica. Mientras llegan nuevos ordenadores completos totalmente funcional, la industria busca solucionar el problema con Optimizadores Hardware que aceleren determinadas partes de los algoritmos que son costosas en tiempo, para lograr eficiencias en su ejecución.
Todo este proceso de investigación, esa muy bien explicado en el vídeo que tenéis arriba, y podéis leeros los dos papers que han publicado, y visitar la web de Microsoft Research Analog Optical Computer, que es lo que he estado haciendo yo este fin de semana. En ellos explican el fundamento básico, que se apoya en haces de luz que se modulan en una matriz de puntos de intensidad para generar un conjunto matricial de puntos de colores, lo que significa que por cada punto de luz de la matriz resultante tenemos el impacto del haz de luz modulado (operado matemáticamente) por la matriz de moduladores, que puede ser capturado por un array de cámaras.
Ésta es una operación óptica básica que permite multiplicar un vector por una matriz, que es una operación muy común que se utiliza en muchos algoritmos complejos. ¿Cuál es la ventaja? Pues que esta operación se hace a la velocidad de la luz, así que lo que los investigadores pensaron es ¿qué algoritmos se benefician de este tipo de optimización? Y ahí aparecieron los algoritmos QUMO.
"Los problemas "Quadratic Unconstrained Mixed Optimizations with all-to-all Connectivity" consisten en encontrar la configuración óptima de variables (enteras y binarias) que minimizan (o maximizan) una función cuadrática, donde no hay restricciones directas y todas las variables pueden interactuar entre sí" (fuente)
Este problema, que también se está abordando desde el prisma de uso de Optimizadores Quantum Anheling, es un problema donde existen muchas variables donde todas impactan en la optimización del problema. El problema típico es el de elegir la mejor inversión en la bolsa teniendo en cuenta que las variables cambian a lo largo del tiempo, y que todas las variables están relacionadas porque si se desinvierte en una se invierte en otra, y puede tener un impacto global en la solución.
En estos algoritmos el objetivo es maximizar el retorno y minimizar el riesgo, así que son dos variables que miden el riesgo y el beneficio, con una matriz de opciones de inversión, pero que van variando a lo largo del tiempo.
Este tipo de problemas, utilizando un algoritmo de solución llamado Gradient-Descent, porque se trata de elegir puntos de inversión inicial para llegar a una zona final óptima minimizando la energía, que en el ejemplo son los valores de riesgo y beneficio. Al final, exige una iteración a lo largo del tiempo de una multiplicación de vector por matrices, algo que se puede hacer on un Optimizador Analógico Óptico.
Este proceso se hace a la velocidad de luz, y permite conectarse con un equipo normal, lo que haría que estas operaciones fueran muy rápido, acelerando la ejecución del algoritmo. Este trabajo lo han presentado en el artículo que ha sido publicado en la revista Nature este pasado 3 de Septiembre, titulado: "Analog optical computer for AI inference and combinatorial optimization".
En el artículo, no solo han hecho pruebas en simulador, sino que han probado diferentes algoritmos utilizados hoy en día basados en problemas QUMO, con uno de los últimos prototipos que han construido, y que tiene un aspecto aún lejos de estar en producción.
Los módulos marcados con los números 1, 2, 3 y 4 de este computador son los que en la imagen de la Figura 7 están descritos conceptualmente, y que en la imagen siguientes veis desmontados del equipo para verlos mejor.
Como véis, para hacer una multiplicación de un vector por una matriz necesitamos dos operaciones básicas, que son la multiplicación - realizada con el modulador de intensidad que da una pantalla de resultados en forma de colores, y la suma se realiza con la cámara, para llevar el resultado final a la electrónica que conecta con el computador digital habitual.
En el paper publicado en Nature, los investigadores han probado su algoritmo en cuatro algoritmos que encajan con necesidades QUMO en ciertas partes y hacen un uso intensivo de la multiplicación de vectores por matrices, como la reconstrucción de imagen médica, el problema de inversión financiera del que hemos hablando anteriormente, algoritmos de clasificación complejos utilizados en Machine Learning o los algoritmos de Regresión No Lineales que se usan en los modernos modelos de Inteligencia Artificial.
Los resultados, en todos los casos, mejoran los benchmarks anteriores, dando mejores soluciones, en menor tiempo, y mostrando un prometedor futuro para este tipo de Optimizadores Analógicos Ópticos, que ponen a la tecnología fotónica en un momento dulce.
En los diferentes problemas, el uso de AOC ha conseguido resultados de mejor calidad, nuevas soluciones, mejoras de tiempo, y mejores resultados en los Benchmarks. Es el objetivo de los optimizadores, conseguir una mejora de una parte de un algoritmo para conseguir una mejora en el algoritmo completo.
Los primeros equipos que enseñó el equipo de Microsoft Research Analog Optical Computer han mejorado mucho su tamaño, pero aún están lejos de estar en producción, pero es un ejemplo claro de cómo la ciencia mejora nuestra tecnología, y esto seguro que no demasiado lejos en el tiempo veremos estas tecnologías en los datacentes en los que corremos nuestros modelos de IA - que, también nos sirven para optimizar nuestros algoritmos, como ya hemos visto como Alpha Evolve.-.
Las ilusiones visuales se producen cuando, para entender mejor nuestro alrededor, nuestros cerebros nos engañan manipulando el mundo que vemos. Es una confusión, o alucinación de nuestro cerebro, provocada por la re-interpretación de los estímulos visuales que hace nuestro cerebro. Líneas que parecen de diferente tamaño según cuál es la forma de los extremos, círculos que parecen más grandes o más pequeños en función de lo que les rodea, o dibujos que parecen cabezas de patos o conejos según se orienten. Es un mundo de ilusiones que llevamos años investigando como parte del camino de descubrimiento de cómo funciona nuestro órgano más desconocido - aún - "el cerebro".
En el mundo de la Inteligencia Artificial de los Modelos Visuales tienen que lidiar también con ellos, pero lo peculiar es que en ellos su cerebro no funciona como el nuestro. Clasificar imágenes es un proceso de clasificación, que bien podría ser un algoritmo de Machine Learning, sin una re-interpretación del mundo según se vea la imagen. Pero aún así, tienen que convivir con nuestra percepción del mundo.
Los modelos de IA no pueden ver nuestras Ilusiones, aunque ellos tengan Alucinaciones, pero deben saber que nosotros las vemos, por lo que deben reconocer que están ante una imagen de una Ilusión y a partir de ahí entender lo que le estamos preguntando, lo que queremos que razone, etcétera. Esto, genera una situación un tanto curiosa, como hemos visto en el artículo titulado: "The Illusion-Illusion: Vision Language Models See Illusions Where There are None" porque para reconocer nuestras ilusiones, su proceso de entrenamiento acaba llevándolos a ver ilusiones donde no las hay.
Al final, lo que sucede es que para reconocer que está ante una de nuestras ilusiones, se entrena el modelo con datos, y consigue reconocer la ilusión cuando la ve. Pero, la gracia está que, cuando se encuentra frente a una imagen que tiene similitud con la imagen de nuestra ilusión, la reconoce como si fuera la ilusión... y falla estrepitósamente.
En el artículo del que os estoy hablando, los investigadores han generado imágenes que son ilusión de la ilusión o Ilusion-Ilusion en el paper, y ha probado cómo se comportan los diferentes modelos visuales de los principales MM-LLMs que tenemos hoy en día.
Además de la probar la imagen de la Ilusion y de la Ilusion-Ilusion, han creado imágenes de Control que son justo la parte que deben evaluar para responder a la pregunta y detectar si es una ilusión o no. Es decir, dejando la parte clave de la imagen para eliminar el efecto de ilusión que provocan los elementos accesorios en nuestro cerebro.
Y ahora, con cada grupo de ilusiones, a probar cómo lo reconocen los principales Multi-Modal LLMs que tenemos hoy en día, donde los resultados son bastante curiosos. Primero con el Basic Prompt, que es la pregunta que se le haría a una persona para ver si cae o no en la ilusión. Son prompts donde no se le dice que hay una ilusión, y tiene que detectarla.
El grado de acierto con las imágenes de ilusiones es alto en GPT4, Claude3 y Gemini Pro, y más bajo en el resto, pero de igual forma estos mismos fallan mucho con las Ilusion-Ilusion donde cree que son ilusiones y no responden correctamente a la pregunta. Y con las imágenes de Control entre medias de ambos resultados.
En la Figura 8 tenéis los resultados diciéndoles en el Prompt que es una ilusión, para encaminarles - correcta e incorrectamente - en cada petición. Cuando se dice que es una ilusión, aciertan mucho más en las que realmente son una ilusión, pero fallan mucho más aún en las Ilusion-Ilusion y en las Imágenes de Control, con lo que su grado de acierto es bastante pequeño.
En la última imagen, tenéis fallos llamativos usando el Basic Prompt con las imágenes de Control en Gemini Pro, GPT-4o y Claude 3, donde queda claro que las imágenes de entrenamiento ha hecho que les lleve a tener este tipo de "Alucinaciones" inesperadas. Al final tiene que ver con el Potemkin Rate, porque parece que reconoce bien y no cae en las alucinaciones, pero es justo al contrario y cae en Hallucinations por culpa del entrenamiento para reconocer Illusions.
¿Se podría sacar uso a esto de forma maliciosa? Pues no sé, pero tomar decisiones en un sistema de navegación con Modelos Visuales de IA como los que tenemos en Automóviles, Drones o Aviones, puede ser un verdadero problema de seguridad física. Ya vimos cómo se podía hackear un Tesla con Pegatinas en la DefCon de hace años, y esta debilidad seguro que tiene aplicaciones "prácticas".
Después de publicar el artículo de ayer "Sobre la Fiabilidad del Reconocimiento Facial en Imágenes de Cámaras de Seguridad" alguien me contactó y me contó el estudio de los dobles del presidente de Rusia, del que ha habido mucha especulación en los últimos días sobre si fue él o un doble el que se reunión con el presidente Donald Trump.
Figura 1: Sobre descubrir dobles de líderes mundiales
con Facial Recognition Technology
La verdad es que no había seguido las investigaciones al respecto, y tampoco he podido tener acceso a la fuente original de dicha investigación. Según cuentan, se han cogido imágenes de diferentes momentos, conociendo con exactitud cuando era él en persona, y utilizando un Cognitive Service de Face Comparison, comprobar si es la misma persona o no.
Según siempre la investigación hecha que yo no he podido ver, hay referencias de que en esas tres fotos, el grado de similitud es del 53% y el 40%, y que corresponden a tres momentos cercanos en el tiempo. Supongo que habrán entrenado algún modelo de Machine Learning, o habrá usado directamente un Cognitive Service de Face Comparison para hacer estas pruebas.
Como están las tres fotos - con la calidad que están - he querido probar algún Cognitive Service de Face Comparation de caras, a ver qué me decía, y los resultados han sido de lo más disparatados por lo poco deterministas que han sido.
En las comparaciones hechas con Pro Face Finder sale, en ambas, que con un más del 70% las tres fotografías hacen Match con la misma persona. ¿Es esto correcto? Pues si leíste el artículo de ayer quién sabe si es un Falso Positivo o un Acierto Positivo.
Como no quería quedarme sólo con una sencilla prueba, he ido a probar otros servicios con Cognitive Services de Face Comparisony he probado otras de las fotografías puestas en duda en las redes sociales y artículos publicados en la red. Primero con las mismas fotos, pero con el servicio de Face Similarity.
Con este servicio, dice que las fotos son de la misma persona con un grado superior al 90% de confianza, lo que genera menos determinismo aún a las pruebas, ya que tenemos datos del 50%, del 70% y ahora del 90%.
La última prueba que hice la realicé con otras nuevas fotografías, en este caso con una de las de Alaska y otra de un poco antes en un vídeo paseando por Ucrania. Usé el servicio de PicTriev que tiene el servicio de Similitud y de Identidad.
Figura 8: Putin en Alaska y en Ucrania
El servicio de Similitud dice cuánto se parecen esas caras, independientemente de que sean de la misma persona o no, y el resultado que me arrojó este servicio fue de 66% tal y como podéis ver en la imagen siguiente.
Pero si vamos a ver la parte de Identidad, lo que nos dice este servicio es que las dos fotografías no pertenecen a la misma persona, supuestamente porque hay diferencias estructurales grandes como para que puedan serlo.
¿Quiere decir todo esto algo? Pues no lo sé. Visto los resultados del artículo de ayer "Sobre la Fiabilidad del Reconocimiento Facial en Imágenes de Cámaras de Seguridad" no me atrevería a decir nada, y menos con unas imágenes con tan poca calidad, y sin conocer en detalle cómo ha sido entrenado el Cognitive Service de Face Comparison.
Y lo mismo sobre la investigación original. Sin tener a los datos sobre la tecnología de comparación de caras, las fotos que se han utilizado en la calidad concreta que se han utilizado, es difícil hacer algo más que "jugar" y "especular" con diferentes servicios de Face Comparison, que ya sabes que pueden llegar a confundirme a mí con George Clooney en algunas fotos pero..... puedes hacer tú las pruebas que quieras también.
No es la primera vez que el debate del Reconocimiento Facial ocupa parte de este espacio. En el año 2023, en el artículo titulado "Detecciones policiales erróneas por "falsos positivos" en Reconocimiento Facial" se contaba la historia de cómo una mujer fue detenida y llevada a juicio por un reconocimiento facial a partir de imágenes de una cámara de seguridad, donde se olvidaron el detalle de que en ese momento, la mujer detenida estaba embarazada de 8 meses. Algo que no detectó el algoritmo de reconocimiento facial pero que era muy fácil de comprobar en su momento.
En los modernos Cognitive Services de Reconocimiento Facial, yo he puesto muchas veces el ejemplo de "hallucination" cuando me confundían en fotos a mí con el actor George Clooney, algo que creo que salta a la vista que no debería pasar de ninguna manera, y que sin embargo ha sucedido en más de una ocasión. Si sabemos que hay Sesgos, Falsos Positivos, Falsos Negativos o Hallucinations... ¿Podemos fiarnos de la Tecnología de Reconocimiento Facial (Facial Recognition Technology - FRT) ? Cuando la utilizamos con imágenes de cámaras de seguridad de baja calidad o en condiciones que no son las ideales... ¿son realmente fiables estas tecnologías?
Si miramos las imágenes con las que cuentan las FRTs para reconocer a las individuos, no son siempre ni a la mejor resolución, ni con la mejor calidad, ni con el mejor ángulo de enfoque, con lo que tienen una dura misión para detectar un Match de Reconocimiento facial que no sea más allá que "un indicio" leve para investigar después, pero parece imposible que se pueda utilizar como una prueba concluyente.
Para localizar estos Ratios de Falsos Positivos (FPR) y de Falsos Negativos (FNR), se ha hecho un experimento en el artículo generando 50.000 imágenes sintéticas utilizando un modelo de StyleGAN3. Estas imágenes se han catalogado después en función de sexo y raza para conseguir una dispersión mayor y probarla con diferentes tipos de personas.
La distribución de estas personas, en función de sexo y raza es más o menos homogénea en sexo, pero en raza se ha hecho una distribución sesgada entre raza blanca, negra y asiática, para probarlo en un entrono similar al que puede tener un país como los EstadosUnidos.
Ahora, lo siguiente que se ha hecho ha sido manipular esas imágenes para ponerlas en condiciones similares a las que se tienen las cámaras de seguridad y muchas de las investigaciones policiales, haciendo distorsiones de resolución, brillo, contraste, color, etcétera, y probar en condiciones NO ideales, que es a lo que se tienen que enfrentar las FRT de los cuerpos de seguridad que investigan los delitos.
Ahora, una vez que se tienen las imágenes generadas, se corren los procesos con las FRT para calcular el número de Falsos Positivos (FP), el Total de Positivos (TP), el número de Falsos Negativos (FN), Total de Negativos (TN), el Ratio de Falsos Positivos (FPR) y el Ratio de Falsos Negativos (FNR) todos ellos normalizados con el porcentaje de del sexo y raza de la población, para hacer una estimación más fiable de estos valores. Todos estos valores se miden haciendo búsquedas con objetivos en la base de datos, y con objetivos que no están en la base de datos - y que deberían no dar ninguna coincidencia -.
Y los resultados, como podríais imaginar son que tenemos un número significativo de Falsos Positivos, de Falsos Negativos, con sesgos más marcados por sexo y raza. En la siguiente tabla tenemos los Ratios deFalsos Positivos y Ratio de Falsos Negativos en función de la degradación de calidad de la imagen de búsqueda.
Pero, si lo miramos por tipo de degradación de la imagen, y por raza y género, vemos que los FPR y FNR son sensiblemente diferentes. Por ejemplo, hay más Falsos Negativos con imágenes de mujeres blancas con mala calidad de contraste que mujeres negras, pero hay más Falsos Positivos en mujeres negras que en mujeres blancas.
Pero es que si miramos cualquiera de las degradaciones de calidad, vemos que las FRT tienen diferentes FNR y FPR por raza y sexo, lo que hace que sea más propenso a dar un Falso Positivo o un Falso Negativo si tu raza es una u otra. Lo que hace que haya que poner estas tecnologías como indicios en las investigaciones policiales, pero nunca como prueba definitiva.
Este tipo de investigaciones hacen que corrijamos errores que podemos cometer con la tecnología y que pueden afectar de manera muy seria a la vida de las personas. Por todo ello, si eres de los que te dedicas a hacer informes periciales o análisis forenses, conocer estos datos son fundamentales para ajustar tus conclusiones en su justa medida. Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los posts, papers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligen