RenderFormer: Renderización con Inteligencia Artificial de escenas 3D, con puntos de luz y cámara.
Ya os he contado alguna que otra vez que mi Proyecto de Fin de Carrera de la Ingeniería Técnica de Informática de Sistemas en la Universidad Politécnica de Madrid se centró en Geometría Computacional. Algo que me gustaba mucho por aquel entonces, ya que descubrir la Marcha de Jarvis o el Algoritmo de Melkman, era siempre un descubrimiento. Mi proyecto, que hice luego con ChatGPT en poco tiempo, os lo conté tiempo atrás: Encontrar el par de puntos más próximos en una nube de puntos usando un algoritmo de complejidad nLog(n).
Despues de eso, la vida dictó otro camino. Primero me metí en una startup como programador de Visual C++ para Windows ya que estaban construyendo un GIS, y luego mi vida paso a las bases de datos, llegó el SQL Injection, y el mundo del hacking, pentesting y ciberseguridad absorbió mi carrera profesional. Sin embargo, sigo teniendo mucho interés por este mundo, y cuado veo algo que tiene que ver con el mundo de los gráficos en mi RSS, me lo marco para echarle un ojo con calma.
Esto es lo que hice con el paper publicado por Chong Zeng, Yue Dong, Pieter Peers, Hongzhi Wu & Xin Tong del equipo de Microsoft Research Asia, que se titula: "RenderFormer: Transformer-based Neural Rendering of Triangle Meshes with Global Illumination" y que plantea un sistema de renderización sin cálculo de física utilizando redes neuronal basadas en Transformers para generar mallas de triángulos iluminados, que posteriormente se convierten en una imagen en 3D final.
Este modelo de Inteligencia Artificial, llamado RenderFormer, está pensado para resolver un problema costoso en tiempo, como es la renderización de mallas 3D en imágenes 3D visuales que es de alto impacto en juegos, vídeos 3D o mundos virtuales, y que RenderFormer intenta mejorar con Inteligencia Artificial.
El proceso, como está descrito en la imagen superior cuenta con dos redes de transformers que generan mallas de triángulos iluminados, a partir de la imagen de la malla 3D, del punto de luz, y de la posición de la cámara. En la primera fase del proceso, la red Transformer se resuelve el problema del foco de luz triángulo a triángulo de manera independiente, para codificar las propiedades de reflejo de cada triangulo.
Después, para generar la imagen final, se hace un nuevo proceso antes de tener la imagen final en el que se toma como referencia la posición de la cámara, y como resultado final obtenemos una imagen renderizada en 3D desde el punto de vista de la cámara con luces y sombras creadas por RenderFormer.
Cuando hablamos de los Digital Nomads para entrenar a los Robots en el Physical Turing Test, vimos cómo se utilizaba una generación de vídeo que simulaba el punto de vista del robot. En este caso no se trata de un Modelo de Difusión para generar una imagen rasterizada a partir de imágenes finales entrenadas, sino una imagen 3D generada a partir de una imagen construida con triángulos con sus propiedades de reflejo de luz. Es decir, se genera el 3D de los triángulos con Inteligencia Artificial sin utilizar las técnicas de física que utilizan programas como Blender, y luego se rasteriza.
Si miramos las imágenes de la Figura 5 y Figura 7, podemos ver la comparación del método de RenderFormer comparado con el funcionamiento clásico con Blender. Los resultados no son perfectos, ni iguales, pero las diferencias son muy pequeñas. Sin embargo, si miramos los resultados con el mismo tiempo de ejecución en ambos, es decir, limitando la calidad en Blender para asegurar que tarda lo mismo que RenderFormer, se puede ver que el resultado de RenderFormer es espectacular.
El resultado de calidad es muy bueno, y aunque el modelo aún tiene muchas limitaciones, como soportar cámaras dentro de objetos, o materiales de distintos grados de reflexión en los objetos, los resultados son muy interesantes para acelerar el mundo de la renderización usando IA en lugar de Física.
De nuevo, esta es una aproximación diferente a renderización utilizando física, o renderización utilizando modelos de difusión, como vimos en el caso de Genie3 de Google, que sigue creando vídeo con mundos en 3D con Inteligencia Artificial, pero no basado en el esta arquitectura.
Figura 11: Genie3 de Google
¡Saludos Malignos!
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario