jueves, septiembre 25, 2025

Fótonica e Inteligencia Artificial combinadas para crear una nueva técnica de codificar fotografías comprimidas

¿No te ha pasado nunca que deseas capturar exactamente lo que están viendo tus ojos en un momento determinado, con todo lujo de detalles? La evolución nos ha dotado de una vista extraordinaria, pero también nos ha condenado a ser testigos de momentos únicos que no podemos grabar a fuego lento para siempre. Nuestro cerebro no está preparado para guardar copias exactas de lo que vemos, o lo que experimentamos. Se difuminan, se cambian, se modifican, se diluyen en nuestra memoria, e incluso, los olvidamos.

Figura 1: Fótonica e Inteligencia Artificial combinadas para
crear una nueva técnica de codificar fotografías comprimidas

Esta necesidad humana de conservar esos recuerdos dio lugar al nacimiento, primero de la pintura y luego la fotografía, que nació hace casi dos siglos, con la invención del Daguerrotipo. Como imaginarás, desde aquellos albores hasta hoy, la fotografía ha evolucionado enormemente. Y de la captura analógica, pasamos a la captura y el tratamiento digital de las mismas. Las imágenes que capturamos hoy con nuestros móviles no tienen nada que ver con aquellas primeras fotografías. Hemos conseguido mejorar el nivel de detalle, añadir color y, sobre todo, digitalizar por medio de la tecnología completamente el proceso de la toma de instantáneas.


Sin embargo, todo este progreso tecnológico tiene un coste. El procesamiento digital de imágenes consume mucha energía y se enfrenta a límites en la transmisión y almacenamiento de datos. Solo para una imagen convencional necesitamos realizar entre 100 y 1000 operaciones por píxel para compensar factores como el ruido, además de aplicar después algoritmos de compresión como el popular JPEG, el popular formato de compresión "con perdida" que tantas fotos ha guardado, guarda y guardará.

Todas estas operaciones hacen que el consumo energético se dispare, además de que los algoritmos de compresión deben ser muy eficaces para no perder, o perder la menor información, pudiendo mejorar los tiempos de compresión, y los tamaños de archivos resultantes. Por eso, para conseguir imágenes de mayor resolución, necesitamos algoritmos de procesamiento y compresión más eficientes que aumenten la velocidad de procesado y reduzcan el tamaño de almacenamiento necesario. Y aquí es donde la fotónica entra en juego.


En un artículo fascinante publicado en Nature Communications titulado "Integrated photonicencoder for low power and high-speed image processing", el cual te animo a leer ya que se encuentra todo detalladamente explicado, proponen usar un sistema óptico combinado con Inteligencia Artificial para realizar este proceso de codificación de imágenes de manera mucho más eficiente.


Para optimizar el proceso se utiliza un Codificador Fotónico Analógico en una arquitectura híbrida, que combina óptica y electrónica en circuitos de silicio, con el siguiente esquema:
  • Fuentes de luz: para usar tecnología fotónica se necesita de luz coherente la cual manipular, al igual que los ordenadores electrónicos necesitan electricidad. Cada uno de los píxeles de la fotografía a codificar pasa a ser emitida con un láser coherente estable que proporciona el haz de luz a procesar.
  • Guías de onda monomodo: se implementan múltiples guías de onda monomodo, una por cada píxel del bloque que se va a procesar, cada una con un modulador que codifica la información de un píxel específico.
  • Guía multimodo: se combina todas las señales de cada guía monomodo en una sola señal multimodo antes de realizar las operaciones.
  • Codificación aleatoria: es el punto más importante e ingenioso de este artículo. Aprovechan el hecho de que las primeras capas de la mayoría de redes neuronales de codificación no son críticas en la calidad de la compresión, y las implementan físicamente de forma pasiva y pre-diseñada usando centros de dispersión aleatorios creados simplemente haciendo agujeros de aire en silicio. Esto permite, gracias a que la luz opera en el régimen lineal, describir todo el proceso de codificación de forma muy simple:
Resultado= Matriz_Dispersion x Entrada
  • Detectores: la señal óptica resultante se captura con fotosensores. La compresión ocurre de forma natural en la etapa anterior, donde el diseño de la matriz de dispersión garantiza que haya menos canales de salida que de entrada, reduciendo así tanto el número de detectores necesarios como el tamaño final de la imagen.
  • Red Neuronal: finalmente se utiliza un backend digital electrónico con un modelo de Inteligencia Artificial Generativa entrenada para reconstruir la imagen original a partir de la versión comprimida obtenida de los detectores.
Los resultados de esta técnica son impresionantes: en el artículo afirman que las imágenes reconstruidas mantienen más del 90% de similitud estructural con las originales, con el potencial de procesar flujos de datos a velocidades de terapíxeles.


La magia del proceso es comprimir fotónicamente y reconstruir con un algoritmo de Inteligencia Artificial generativa basado en la reconstrucción que se hace en los Difussion Models. La imagen es capturada por una cámara de alta calidad, con alta resolución y que genera imágenes con un alto consumo de datos de almacenamiento. 

Esa imagen se pasa por un el Codificador Fotónico Analógico descrito, donde la compresión se hace con sensor de luz que calcula el valor del píxel a partir de una captura con una óptica de baja resolución, para generar un conjunto de imágenes de baja calidad y bajo consumo de datos de almacenamiento. Es decir, si pensamos en un Modelo de Difusión, sería el equivalente al difusor.
Ese conjunto de imágenes se convierten en la información latente del modelo, y son el conjunto de datos de entrada que utilizará el Modelo de GenAI para hacer el denoising, y generar una imagen final de alta calidad con un alto grado de similitud con el resultado final. Es decir, algo parecido a cuando vimos que era posible aumentar la calidad de la miniatura de las imágenes de 1-sólo-uso enviadas por WhatsApp, o a cuando vimos que se utilizaban señales cerebrales para reconstruir imágenes de lo que está viendo una persona. En este caso, imágenes difuminadas - o comprimidas en calidad - usando fotónica.

Reflexión final

Lo más prometedor de esta tecnología es que permite comprimir y procesar imágenes con una eficiencia energética mucho mayor, a una velocidad mucho mayor, generando imágenes, gracias a la combinación de Fotónica e Inteligencia Artificial, con una calidad mayor incluso que la del popular formato JPEG. Una aplicación de la fotónica en la fase de compresión de la imagen, que se aprovecha de la velocidad de la luz para la fase de reducción de calidad, igual que el proyecto de Microsoft Research lo hacía para calcular la multiplicación de matrices.  La luz y la fotónica está de moda, y si no que se lo digan a LightMatter.

Saludos,


No hay comentarios:

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares