Un informático en el lado del mal: VR/AR

Mostrando entradas con la etiqueta VR/AR. Mostrar todas las entradas

sábado, agosto 16, 2025

¿Está vivo el "sueño" del Metaverso? Second Life se apunta al formato GLB del Metaverse Standards Forum

Me vais a matar, soy María otra vez. ¡No es culpa mía que vaya todo tan rápido! Hoy os traigo novedades frescas sobre... Tachán tachán... ¡¡¡El Metaverso!!! ¿Ves? He dicho “Metaverso” y no se me han caído los ojos de sus cuencas ni nada.

Figura 1: ¿Está vivo el "sueño" del Metaverso?

Second Life se apunta al formato GLB del Metaverse Standard Forum

¿Te imaginas tener acceso fácil a realidades extendidas y mundos virtuales? ¿Tan fácil como ahora accedes a Internet desde el dispositivo que tengas a mano? ¿Y te imaginas estar compartiendo tus propias creaciones virtuales, igual de fácil que ahora compartes vídeos en TikTok o en reels? ¿Te ves participando en una nueva economía de creadores que forme parte de ti como el respirar? Pues puede que ese futuro se esté acercando... Y puede que no venga de donde crees.

Figura 2: Esa soy yo en Second Life, es mi bienamada avatar Irma.

Reto: si aciertas dónde surgió la idea para este artículo, te llevas un tontipunto. Pero no me hagas trampa, ¿eh? ¡Espera a leerlo hasta el final! Bueno, haz lo que te plazca XD

Primero, un poco de contexto

¿Te acuerdas de hace casi 4 años, en octubre de 2021, cuando Mark Zuckerberg nos contó en Connect su visión del Metaverso? Los que estamos en estas cosas lo entendimos normal, a la primera, sin problema. Pero por algún motivo que nunca comprendí, la idea fue procesada por el mundo en general al estilo Martes y 13 con Encarna de Noche y las empanadillas de Móstoles. Perdona porfa si no conoces la referencia, es humor español absurdo de los años 80.

Figura 3: vista en detalle, un avatar actual en Second Life (male).

Imagínatelo, alta calidad gráfica y animaciones preciosas.

Empanadillas aparte, desde el anuncio de Zuckerberg muchísima gente nos pusimos a trabajar súper ilusionados, pensando en construir paso a paso un futuro que nunca antes había sido posible imaginar: un futuro de interoperabilidad. Una idea chula... Aunque confieso que siempre fui escéptica. Bueno, no siempre. Creo que fue en 2008 cuando perdí la fe del todo.

Interoperabilidad, ¿2021 era demasiado pronto?

¿A qué me refiero con interoperabilidad? A estándares. ¿Para qué? Para poder transitar por diferentes mundos o experiencias inmersivas, entrar, salir, saltar de una a otra... Siendo un único tú, un único usuario: un avatar, una agenda, una wallet. ¿Por deporte? No: por economía. ¡Ticling!

Figura 4: Second Life Marketplace, el equivalente en esta plataforma

a “Amazon”, donde vender y comprar de todo al instante.

Una vez superado el hype del anuncio de Zuckerberg (y con este sentido del humor tan sofisticado que se nos ha quedado, consistente en reírse entre dientes cada vez que alguien dice “Metaverso” como si fuera un chiste de pedos), parece que efectivamente el tiempo pone todo en su sitio y las plataformas de mundos virtuales, en su esfuerzo por mantenerse a flote, tienden a ir en la otra dirección: no hacia interoperabilidad (ciento volando), sino hacia “walled gardens” (pájaro en mano).

Figura 5: vista en detalle, un avatar actual en Second Life (female).

Si esta es su cara, no quieras imagiar su cuerpo, grrr... ¡Miau!” =^_^=

¿A qué me refiero con “walled gardens”? A lo que suena: economía cerrada. Por lo que observo, parece que cada plataforma se está plegando sobre sí misma, buscando una economía propia que le permita sobrevivir a corto. No digo que esté mal, Woz me libre, es sólo que el momento es así ahora. Posiblemente 2021 era pronto para interoperabilidad... Especialmente si hablamos de plataformas nuevas, que seguramente tengan que consolidarse muy mucho antes de pensar en romper fronteras.

El monstruo que acecha... Esperando su momento

Y sin embargo, no todas las plataformas de mundos virtuales son nuevas, ni mucho menos. Hay algún maromazo por ahí que a la chita callando lleva más de veinte años levantando un mundo paralelo bit a bit. Un mundo habitado, creado y sostenido por una comunidad súper pro y freak a morir. Un mundo con una economía consolidada, comprobada y curada en el tiempo. Un mundo sólido, viejo, fuerte, preparado para romper esa frontera en cuanto las nuevas capacidades de Internet lo permitan.

Figura 6: Philip Rosedale pilotando su avatar Philip Linden en SL.

Ya ves a quién me refiero... ¡Efectivamente! Es Philip Rosedale: el jefe súper supremo y fundador de Linden Lab, la empresa detrás de Second Life. Por si no le pones cara, te dejo este simpático vídeo de tres minutos y medio del World Economic Forum.

Figura 7: Vídeo de tres minutos y medio del World Economic Forum.

Podéis ponerme mil pegas: podéis decirme que Second Life es sólo para ordenador, que no funciona con gafas de VR, que no incluye experiencias AR, que ni siquiera se puede acceder mediante navegador porque sigue dependiendo de un viewer... Y es verdad. Tienes toda la razón. Y esa es precisamente la barrera que Second Life podría -hipotéticamente- estar en posición real de derribar, llegado el momento.

Como ya te conté en este artículo anterior, mientras las plataformas nuevas (las que empezaron su andadura después de la idea de Zuckerberg) se repliegan de momento hacia “walled gardens”, Second Life parece calentar motores. Primero con las pruebas en navegador mediante pixel streaming como te conté la otra vez. Y ahora... Atiende que voy:

Second Life está adoptando estándares (.glb)

El pasado viernes 8 de agosto, Second Life actualizó su viewer a la versión 7.2.0.16729091892 – 2025.05, con una feature de lo más interesante: permiten la importación de modelos .glb, uno de los estándares de objetos 3D que más se está utilizando en diferentes plataformas de mundos virtuales sociales.

Figura 8: A principios de agosto, Second Life ha dado un

primer paso para la adopción del estándar glTF.

Hasta ahora, para subir un modelo 3D a Second Life se necesitaba un editor 3D que permitiese la exportación en COLLADA (.dae), formato desarrollado inicialmetne por Sony Computer Entertainment y que ahora es gestionado por Khronos Group.

El formato COLLADA está basado en XML y es más utilizado en workflows de edición y transferencias entre software 3D clásico, no es muy rápido y a veces su peso es excesivo. El formato GLB, en cambio, es binario, más compacto, rápido, y especializado en XR y plataformas de Metaverso, aunque es menos editable, tiene soporte limitado para materiales avanzados y no todas sus extensiones son 100% compatibles para cualquier runtime.

Figura 9: Exportando glTF desde Unity, con KHR_Interactivity integrada.

Una de las extensiones que no están completamente soportadas es la de glTF interactivity, que además de geometría, materiales y animaciones, permite añadir interactividad a los objetos a través de Unity y visual scripting. ¿Os imagináis lo que significaría poder crear los comportamientos de un elemento 3D en un único entorno, y poder importarlo en casi cualquier plataforma de Metaverso? Yo sí XD! Porque me lo enseñó a principios de junio el gran Iker Jamardo de Google ;) Si te interesa, lo tienes muy a mano porque se trata de un plug-in del propio Khronos Group.

Llámame loca... Pero juzga por ti

Recapitulando: ¿son imaginaciones mías, o Second Life está adaptando los estándares que se están proponiendo desde el Metaverse Standards Forum? Lo digo porque los archivos .gltf (o .glb en su “traducción” a binario) se están planteando durante los últimos cuatro años como la base de la interoperabilidad de objetos entre mundos virtuales, con la posibilidad de incluirlos en escenas .USD, que albergarían diferentes objetos .glb dentro de ellas.

Si te suena a chino... ¡Dime qué dialecto XD! Me refiero a que la adopción del estándar glTF es sólo uno de los working groups en los que están trabajando desde el Metaverse Standards Forum donde hay muchas más líneas de trabajo abiertas. Si te interesa conocer más, aquí tienes el listado completo.

Figura 10: Tocando el ukelele con mi avatar Irma.

¿Ves mi cara de concentración?

Llámame loca (¡Loca! Graciasss) pero, ¿no parece que esto es medio paso más de Second Life hacia la interoperabilidad entre mundos virtuales? Y digo “medio” porque ahora mismo subir modelos .glb a SL todavía tiene limitaciones, como la necesidad de importar por separado el modelo y el material, y unirlos después dentro del editor de Second Life... Bueno, no pasa nada. La otra mitad del paso está a punto de completarse: no hay más que echar un vistazo a las contribuciones de la comunidad en GitHub o seguir las conversaciones en Discord, y ahí ya se ve que esta feature avanza rápido, ofreciendo cada vez más posibilidades.

Ideas perversas al alcance de todos

Llegados a este punto, supongo que llevas ya un rato pensando en ideas perversas con esa cabecita traviesa tuya, ¿a que sí? ¿A que estás pensando en herramientas de creación de modelos 3D con Inteligencia Artificial como Meshy o Tripo, que permiten la generación de modelos 3D a través de un prompt de texto y/o una imagen y su posterior descarga en formato .glb?

Figura 11: Vista en detalle, accesorios para lengua en Second Life, impensables

(por varios motivos) en plataformas de mundos virtuales más recientes.

¿Eh, eh? ¿A que sí? ¡¡¡Pues claro que sí!!! Y Philip Rosedale y su equipo también, no te quepa duda. Lo que no sé es a qué esperas para probarlas, alma de kantarooz =^_^=

Pero esos avatares... ¿No son demasiado chulos?

En las imágenes que te he ido poniendo ya has visto que los avatares en Second Life son una pasada. ¡Y no es porque fueran así originalmente! Bajo la piel de cada avatar precioso que ves, hay un avatar básico de sistema recubierto por piezas 3D interactivas creadas por otros usuarios a lo largo del tiempo (User Generated Content). Para poder hacerte un avatar así, han tenido que pasar veinte años.

Figura 12: fíjate en la joyería tan intrincada que lleva este avatar.

Esta complejidad de geometría era impensable hace veinte años.

Durante estos veinte años, la comunidad de Second Life ha ido puliendo y perfeccionando métodos ingeniosos para hackear el avatar de sistema, añadiendo capas de creciente complejidad y belleza. Al mismo tiempo, Linden Lab no se ha quedado atrás y ha ido ampliando las capacidades de Second Life a la par que el propio Internet iba creciendo y madurando.

Hoy por hoy, armar tu avatar es un proceso absolutamente delicioso. Puedes comprar cada componente a tus artistas favoritos (cabeza, pelo, cuerpo, ropa, animaciones...) e ir ensamblándolo todo a tu gusto. Incluso puedes ser artista tú también y vender tus creaciones a los demás.

Figura 13: Bakers on Mesh (BOM)El viewer de Second Life “tuesta” todas las texturas

de tu avatar en una textura única, ahorrando recursos de render sin que tú tenga

que hacer nada.¡Y puedes cambiar tu ropa, pelo accesorios... Siempre que quieras!

Pero espera... ¡Piensa un momento! ¿Y si en un futuro no demasiado lejano Second Life fuera un paso más allá y consiguiera adoptar el formato .vrm, que es el estándar por el que se están decantando en el Metaverse Standard Forum en cuanto a avatares y moda digital? ¿Y si pudieran hacerlo compatible con la creación de avatares por piezas? No sería la primera vez que Second Life ingenia algo así: mira si quieres cómo se lo montaron para mapear todas las texturas del avatar en un solo atlas, sin que el usuario sea consciente de ello. La solución se llama “Bakes On Mesh” (BOM) y es brillante.

En la línea de fuego

Cada día estoy más convencida de que los veinte años de ventaja que tiene adelantados Second Life respecto al mercado la colocan en la línea de vanguardia para romper la barrera de la interoperabilidad, en cuanto las nuevas capacidades de Internet y los nuevos dispositivos lo hagan posible. Y te digo por qué.

El hecho de que Second Life esté abriendo su runtime a otros formatos de modelos 3D más allá de COLLADA, concretamente estándares como .glb, para mí es una declaración de intenciones. Si Philip Rosedale, que ha conseguido mantener su plataforma de Metaverso abierta durante más de 20 años (a base de ofrecer a los usuarios lo que le estaban pidiendo), se está colocando en la línea de fuego de esas nuevas fronteras... ¿Qué más no tendrá en mente?

Figura 14: Warning! Irma sigue observando.

Se lo dije a Iker Jamardo cuando estuvo aquí, os lo digo a todos: atentos a Philip Rosedale que es un pieza el figura. Y ¿quién sabe si ahí donde lo ves, tal vez se esté preparando para liderar la revolución cyberpunk? XD Yo por mi parte no le pienso perder ojo. Sin duda va a resultar muy interesante seguir sus movimientos ;)

Saludos bue... ¡Ay, espera!

¿Recuerdas el reto del principio? Te había prometido un tontipunto si acertabas dónde surgió la idea para este artículo. Pues... ¡Efectivamente! Surgió en el chat público de este blog, El lado del mal, en MyPublicInbox. Fue durante una conversación con mi querido Ángel Soto (Anso) sobre NotebookLM...

Figura 15: Participa en la conversación Pública de El lado del mal

¿Acertaste? ¿Sí? Genial: ¡tontipunto para ti! Ya sabes adónde venir a canjearlo por un “hola qué tal”: a mi buzón en MyPublicInbox, o al chat público de El lado del mal ;)

Ahora sí... ¡Saludos buenignos!

Autor: María Gómez Prieto

Contactar con María Gómez Prieto

domingo, agosto 10, 2025

De “El cortador de césped” a Genie 3: El futuro que imaginamos con mundos virtuales en tiempo real

Han pasado once meses desde mi primera comunicación con Chema Alonso a través de su cuenta de MyPublicInbox. Y ahora me doy cuenta de que, sin saberlo, desde entonces estoy viviendo mi último año de infancia tecnológica. Hola, soy María. Hace poco os hablé de Veo 3. Hoy quiero hablaros de Genie 3, que es también de Google DeepMind.

Figura 1: De “El cortador de césped” a Genie 3.

El futuro que imaginamos con mundos virtuales en tiempo real

¿Cuál es la diferencia entre ambos? Hablando pronto y mal: Veo 3 es un generador de vídeos, Genie 3, es un generador de simuladores. Aunque Genie 3 se ha anunciado esta semana, no podemos usarlo todavía: de momento las pruebas están reservadas por invitación a investigadores concretos con máquinas potentes. Personalmente agradezco tener un margen de tiempo para hacerme a la idea. Hay mucho que digerir.

Figura 2: Genie 3, explicado al detalle en el portal de Google DeepMind.

Lo resumo brevemente a continuación en el artículo, pero si quieres una explicación más detallada, Carlos Santana a.k.a. DotCSV lo explicó genial el otro día en un vídeo muy chulo de esos que publica en su canal. Aquí os lo dejo.

Figura 3: GENIE 3 ¡El increíble SIMULADOR DE MUNDOS INTERACTIVOS de Google!por Carlos Santana (DotCSV)
¿Os lo resumo? Venga va. O como te diría si estuviéramos en un mundo virtual... “Sígueme” :D

1. Escribes un prompt de lo que quieres generar.

2. Genie 3 simula un entorno virtual según tu prompt.

Figura 4: Genie 3 simula cualquier escena virtual a partir de un prompt de texto.

3. Una vez generado el entorno, tú lo navegas desde tu pantalla, manejando los controles desde tu teclado

Figura 5: El entorno generado responde a tus controles.

4. El vídeo se genera en tiempo real respondiendo a tus controles: adonde mires, Genie 3 genera cada fotograma simulando lo que ves.

Figura 6: Cada fotograma de lo que ves se está generando en tiempo real.

5. Podrás añadir objetos y acciones sobre el mundo ya creado, y accionar la interactividad desde tus controles.

Figura 7: Añade objetos, personajes e interactividad sobre la marcha.

6. Tu sensación será similar a estar avanzando por un videojuego, pero no es geometría tradicional. No hay 3D, no hay grid: lo que ves y accionas está siendo imaginado por Genie 3 en tiempo real.

Figura 8: Olvídate de mallas y polígonos: estás navegando

por la imaginación sintética de Genie 3.

7. Las sensaciones físicas son increíblemente realistas. Por ejemplo cómo responde el agua a la colisión, parece real.

Figura 9: El entrenamiento de Genie 3 para tratar materiales y

físicas es de otro mundo. Bueno no: de este. Tú me entiendes ;)

8. Genie 3 tiene memoria estable. Aunque gires la cámara a un lado y luego vuelvas a girar a la vista inicial, no cambia lo que estabas viendo.

Como ves en este ejemplo de la web de Genie 3, puedes pedirle que te genere una escena interactiva donde el usuario pinte una pared. Atiende porque esto es muy fuerte: si el usuario se mueve en mitad de su labor, al volver atrás sus trazos seguirán ahí.

Figura 10: ¿Te das cuenta de lo que este ejemplo significa?

Entre la información publicada por Google DeepMind encontraréis esta tabla, donde podéis identificar de un vistazo algunas de las mejoras de Genie 3 respecto a versiones anteriores y Veo.

Figura 11: Genie 3 genera varios minutos, en resolución HD Ready,

con latencia Real Time (el output va a 24 fps).

Y ahora dime, ¿no has notado nada raro? Ahá... Esas imágenes... ¿No corresponden a Genie 3, verdad? ¡Efectivamente y no! XD Son capturas falseadas del videoclip “Amazing” de Aerosmith, de 1993.

Figura 12: ZAS! En toda la boca.

¿Y por qué te he troleado con Aerosmith? Te cuento: porque es significativo para mí. Este videoclip fue uno de los primeros contactos que tuve en mi vida con el concepto de realidad virtual. Pero no fue el primero.

Figura 13: “Amazing” de Aerosmith, del album Get A Grip, 1993.
Mi primera referencia a realidad virtual fue una peli que trajo mi hermano del videoclub al poco de tener un vídeo VHS en casa. Es de 1992: El cortador de césped de Brett Leonard. Está basada en un relato corto de Stephen King de 1975 incluido en el libro de relatos El umbral de la noche.

Figura 14: Trailer de la película El cortador de césped (The Lawnmower Man)
Recuerdo erróneamente que pasó muchísimo tiempo entre la peli del 92 y el videoclip del 93... Como si hubieran pasado varios años. Creo que lo recuerdo mal porque en 1992 aún era la niña del ratón roto, con 14 años. Pero en 1993 ya tenía 15 años (sí, tú ríete...) Pero va en serio: a los 15 es como si de repente fuera otra persona. Desde 1993 hasta ahora la tecnología de realidades extendidas ha cambiado mucho, cuantitativamente. Pero eso, en el fondo eran cambios cuantitativos. Yo que tanto he amado la geometría, el low-poly, el level of detail, la draw distance, el render to texture... Snif.

Por cierto, ¿leíste el artículo del otro día de dr. dr. Maligno, el de entrenar a robots mediante sueños? Si ves otra vez el vídeo de la charla (es la charla que dio en Vigo el 2 de julio), verás que una vez más Chema Alonso va semanas por delante de novedades, releases, volamientos de cabeza, hypes y bluffs.

Figura 15: "Can Machines Think or Dream Without Hallucinations?"

Si el otro día ante Veo 3 me sentía como la niña de 14 años, hoy ante Genie 3 me siento como cuando tenía 15. Como cuando veía vídeos de Aerosmith como si no hubiera un mañana. Sí, confusa, asustada... Pero también excitada, muriendo por desarrollar mi potencial, sin importarme llevarme a alguno por delante y con unas ganas locas de comerme el mundo. Os decía al principio que este está siendo mi último año de infancia tecnológica. Pero no soy solo yo, me temo que somos todos. Ahora ya sí chavales. Toca espabilar. Toca madurar... Toca pasarse al lado del mal.

¿Quieres saber más?

Ya sabes dónde encontrarnos a todos, en mi buzón público y en el chat público de El lado del mal en MyPublicInbox... Y —si te animas— ¡edita algo tú también! Aunque sea con un ratón de bola sobre el muslo =^_^=

Figura 16: Participa en la conversación Pública de El lado del mal

¡Saludos buenignos!

Autor: María Gómez Prieto

Contactar con María Gómez Prieto

martes, junio 03, 2025

Physical AI para Robots: Training con Digital Twins, Digital "Cousins" y Digital "Nomads" para pasar el Physical Turing Test

Este fin de semana me pasaron el vídeo de la presentación de Jim Fan de NVIDIA, sobre el entrenamiento y la construcción de modelos de Physical AI para la generación de robots que puedan interactuar de forma autónoma en el mundo físico, como si fueran humanos. La charla es más que interesante, y podéis verla en Youtube, pero yo os he hecho un resumen de ella para los que disfrutáis de la lectura.

Figura 1: Physical AI para Robots - Training con Digital Twins,

Digital "Cousins" y Digital "Nomads" para pasar el Physical Turing Test

La charla comienza planteando lo que para los investigadores de este campo significa el Physical Turing Test, que básicamente se trata de, dados dos escenarios, uno de origen y otro de final, no ser capaz de detectar que la tarea que ha hecho que se pase del primero al segundo ha sido hecha por un humano o un robot.

Figura 2: Physical Turing Test. ¿Quién hizo esto?

El planteamiento está claro, ahora hay que conseguir entrenar a los robots a hacer las tareas. Y para ello, necesitamos humanos que le enseñen a robots a hacer las cosas, y que ellos aprendan. Este proceso se puede realizar como podéis ver, donde un humano con unas gafas VR controla al robot, y este aprende lo que el humano realiza, como cuando una persona le enseña a otro moviéndole las manos.

Figura 3: Humano enseñando con VR a un robot a hacer tostadas.

Este entrenamiento es costoso, y lento. Los datos para entrenar un modelo de Inteligencia Artificial que pueda enfrentarse a un mundo físico complejo, con miles de variaciones, se hace imposible. En realidad, los humanos contamos con miles de millones de humanos enseñando a los demás, pero cuando estás entrenando a un robot, necesitas escalar el entrenamiento, y para ello, hay que pasar al mundo de la Simulación y los Digital Twins (Gemelo Digital).

Figura 4: Simulación con un Digital Twin de una mano

En la imagen anterior se puede ver un gemelo digital de una mano robótica a la que se le está enseñando mediante simulación a mover un palito con los dedos, como cuando jugamos con los lápices en clase, o cuando los bateristas de las bandas de música lo hacen con las baquetas. Esto permite hacer millones de entrenamientos en mundos digitales.

Figura 5: El principio de la simulación

Si se consigue entrenar a un modelo de IA que va a dar inteligencia a un robot en 1M de mundos virtuales, este entrenamiento se puede transferir directamente al mundo físico, que sería el 1.000.001, y hacerlo en tiempo infinitamente más lento. El problema aquí es otro, hacer un Digital Twin del mundo al que se va a enfrentar el modelo con una física perfecta, y esto también tiene sus retos.

Figura 6: Transferencia de Aprendizaje entre el

Mundo Simulado y el Mundo Real

Para hacer un entrenamiento efectivo en el mundo virtual, se necesita hacer un gemelo digital lo más perfecto en cuanto a física posible, al mismo tiempo que lo más completo en cuanto a variedad de escenarios que se puedan encontrar después en el mundo real todos los robots. Este un el ejemplo para entrenar a caminar a los robots.

Figura 7: Entrenamiento de robots para caminar en mundo virtual

Y sobre ese escenario puedes hacer saltos y movimientos de todo tipo, que luego puedes transferir al mundo real. En este vídeo tienes los ejemplos de cómo se transfieren al mundo real para simular algunos movimientos como el de la celebración mítica de Cristiano Ronaldo.

Figura 8: Robot aprendiendo a celebrar como Cristiano Ronaldo

Pero.. ¿cómo crear un millón de escenarios diferentes? Hacer un millón de objetos de cocina diferentes, un millón de calles de ciudades diferentes, un millón de habitaciones desordenadas diferentes con un millón de elementos diferentes en ellas es un trabajo para los diseñados, y para solucionarlo, la Inteligencia Artificial Generativa viene a dar algunas soluciones, como lo que ellos llaman los "Digital Cousins" o "Primos Digitales", que no son hermanos, pero si muy cercanos.

Figura 9: Digital Cousins de cocinas creadas por GenAI

Usar el concepto de Digital Cousin, permite entrenar a un modelo de IA que va a dar inteligencia a un robot, a que se enfrente a una gran cantidad de entornos donde puede aprender. Además, estos entrenamientos pueden automatizarse basado también en GenAI. En el año 2023 se publicó el trabajo de investigación de "Imitating Human Behavior With Diffusion Models", donde se les enseñaba a los modelos a resolver escenarios visualmente con modelos de GenAI.

Figura 10: Comportamiento humano aprendido por diffusion.

Uno de estos sistemas de aprendizaje copiando a humanos en entornos simulados, es el de Groot Mimic, donde se mete un replica de los robots con los modelos de AI que van a ser entrenados para hacer tareas en el mundo virtual.

Figura 11: Groot Mimic

Teniendo ya algoritmos de GenAI para generar elementos en el mundo virtual donde se va a entrenar a un Modelo de AI para un robot concreto, es posible crear frameworks para esta tarea, como es el caso de Robocasa, una plataforma para entrenar robos en tareas domésticas a escala mediante la simulación masiva de hogares.

Figura 12: Robocasa

Y sobre esos entornos masivos, se pueden empezar los proceso de entrenamiento utilizando las técnicas de aprendizaje basadas en modelos de difusión aprendiendo de los humanos. La resolución de problemas visuales en el mundo de la simulación, mediante órdenes concretas, como un si fueran "prompts".

Figura 13: Resolviendo un "prompt" en un escenario en robocasa

Así que, a partir de un único entrenamiento hecho por un humano para hacer una tarea en un sólo mundo, multiplicado por la generación del N escenarios, da una matriz de N x M entrenamientos de resoluciones, lo que permite que el modelo de IA se puede entrenar a infinidad de realidades.

Figura 14: Escalado del entrenamiento con Digital Cousins

Pero aún así, el mundo de los Digital Cousins tiene también sus retos, porque escenarios a los que nos enfrentamos los humanos son también muy complejos de resolver con el 3D, la simulación y la GenAI 3D, como el que podéis ver a continuación.

Figura 15: Simular este escenario es complejo

Para resolver estos problemas, surge la idea de los "Digital Nomads" o "Nomadas Digitales", donde se utiliza la idea de resolver el problema mediante no la ejecución de movimientos en el escenario "virtual 3D", sino en un escenario "de sueños" creado como una película por medio de Vídeo Generado por IA. El mundo de la GenAI puede hacer estos vídeos, como se demostró en el trabajo en el que los investigadores generaban vídeos con IA de movimientos por el mundo de DOOM, titulado: "Diffusion Models Are Real-Time Game Engines".

Figura 16: Diffusion Models Are Real-Time Game Engines

A partir de este momento, el entrenamiento de un Digital Nomad consiste en "soñar" un vídeo rasterizado que resuelva el problema. De todos los multiversos en forma de vídeo que puede crear, que cree el vídeo que venza al Prompt y una vez vencido, aprenda lo que ha hecho en ese vídeo.

Figura 17: El aprendizaje consiste en generar un

vídeo que responda el prompt

Con esto, se pueden generar un millón de escenarios de origen con GenAI en las que el robot (el Digital Nomad) es parte del escenario de origen y tiene que crear un millón de vídeos con GenAI en el que él resuelve el problema.

Figura 18: Aprendiendo con GenAI videos

Una vez resuelto el prompt, tenemos un millón de vídeos sobre los que aprender, y esto hace que el aprendizaje pueda aplicarse sobre elementos que hacer en Digital Twin o Digital Cousin sería más costoso. Por último se hace la transferencia del aprendizaje al mundo real.

Figura 20: Transferencia del aprendizaje

Si se comparan estas tres técnicas, es decir, usar Digital Twins en entornos de simulación, usar Digital Cousins para incrementar la diversidad de escenarios de aprendizaje usando GenAI para la generación de escenarios, y usando Digital Nomads para el aprendizaje usando GenAI videos, tenemos cuatro soluciones que cubren un abanico completo.

Figura 21: Diversidad y velocidad

Como se puede ver en la gráfica, los Digital Cousins y los Digital Nomads son más lentos en entrenamiento, pero aumentan la diversidad de los problemas a los que se preparan, por lo que elegir el mejor modelo de entrenamiento, o la mezcla de estos, es lo que ayudará a evolucionar las capacidades de cada uno de los modelos de AI para robots que serán parte de nuestra vida.

Figura 22: Physical IQ Graph

Pero llegará un momento que, aunque sean más lentos, estos modelos de Simulación 2.0 basados en Digital Nomads sean más inteligentes que cualquiera, debido a que se han preparado en más entornos que ningunos. Para ello han creado un VALM (Visual Actions Language Model) que genera las soluciones a partir de un VLM (Visual Language Model), que genera soluciones con algoritmos de difusión que, una vez entregada en vídeo, se convierte en una serie de acciones asociadas al robot.

Figura 23: Groot N1

Pasar de un vídeo a una lista de acciones, se trata de hacer una descripción del vídeo (un problema de Computer Vision resuelto hace tiempo), en el que se reconocen objetos, características físicas, etcétera, por lo que hacer el Motor de Acciones se apoya también en soluciones de Inteligencia Artificial, pero todo esto nos va a llevar a una nueva economía basada en soluciones para resolver problemas en el mundo físico.

Figura 24: Futuro de Physical AI

La charla me ha encantado, y si tienes 17 minutos, merece la pena que la veas completa, pero espero que el artículo os ayude algo a entenderla. Aquí tenéis el vídeo.

Figura 25: The Physical Turing Test

Desde luego, el mundo en el que estamos entrando gracias a la construcción de tecnología sobre los modelos de IA, uno a uno, está haciendo que la aceleración del futuro con robots que soñó Isaac Asimov estén cada vez más cerca.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

miércoles, abril 09, 2025

3DAIS: Tu oficina en Internet gestionada por tu Avatar VRM Powered by AI

Chema Alonso ya tiene su 3DAIS, y no es casualidad. Esta nueva tecnología está pensada justo para perfiles como el suyo: personas que tienen mucho que contar, una comunidad que les sigue de cerca, y un universo de contenido distribuido por toda la red. Pero ¿qué es exactamente 3DAIS? ¿Por qué puede ser el siguiente paso natural para quien ya ha pasado por blogs, redes sociales, web personal, Twitch, Discord y lo que venga? Vamos a ello.

Figura 1: 3DAIS - Tu oficina en Internet gestionada

por tu Avatar VRM Powered by AI

¿Qué es 3DAIS? 3DAIS son las siglas de 3D Avatar Interactive Space, y su objetivo es tan simple como ambicioso: transformar la forma en que nos presentamos en Internet. En lugar de una web estática o una lista de enlaces tipo Linktree, 3DAIS ofrece un entorno 3D personalizado donde el protagonista eres tú, representado por un avatar que no solo se parece a ti, sino que también habla como tú y responde por ti.

Figura 2: Creación de tu espacio 3DAIS

Sí, has leído bien: un avatar con IA, entrenado con tu información, tu tono, tus enlaces, tus proyectos… y que actúa como anfitrión virtual para cualquier persona que entre en tu espacio.

Así funciona el 3DAIS de Chema Alonso

El 3DAIS de Chema Alonso es una mezcla de oficina cibernética, cápsula retro-futurista y portal de contenidos. Desde su 3DAIS, cualquier visitante puede explorar contenidos destacados, revisar publicaciones, acceder a vídeos y navegar por los distintos enlaces que Chema Alonso comparte públicamente, como los de su perfil en MyPublicInbox. Desde allí, se puede contactar con él, enviarle un mensaje o acceder a otras vías de comunicación directa, todo desde un entorno visual e inmersivo.

Figura 3: Espacio 3DAIS de Chema Alonso

Para el resto de usuarios, 3DAIS incluye la opción de activar un chat atendido por su propio avatar con inteligencia artificial, que puede responder preguntas frecuentes, explicar proyectos, compartir enlaces o incluso agendar reuniones. Esta función convierte al avatar en un verdadero asistente virtual disponible las 24 horas, mejorando la interacción con los visitantes y ofreciendo una experiencia mucho más cercana y personalizada.

Figura 4: Espacio 3DAIS de Chema Alonso

El entorno está diseñado al milímetro con elementos interactivos, y todo responde a una lógica de exploración más que de consumo. Ya no es solo “haz clic aquí”, sino “mira esto, descubre aquello, habla con el avatar”. Una experiencia inmersiva que condensa su identidad digital en un único punto de entrada.

¿Por qué 3DAIS es diferente?

Las herramientas que usamos para presentarnos online llevan años estancadas. Páginas personales, blogs, perfiles sociales… Todo muy plano, muy limitado, muy de scroll y clic. 3DAIS rompe con ese modelo proponiendo algo mucho más cercano a un espacio virtual interactivo, donde cada persona tiene su habitación, su avatar y su forma única de conectar con el mundo.

Figura 5: Diferentes espacios 3DAIS

Estas son algunas de sus claves:

Tu avatar, potenciado por IA: responde como tú, cuenta tus proyectos, guía a los visitantes.

Entorno 3D personalizable: no hay dos iguales. Puedes decorarlo, añadir vídeos, PDFs, enlaces, audios o lo que quieras.

Figura 6: Selecciona tu Template y crea tu 3DAIS

Accesible desde cualquier navegador, sin necesidad de instalar nada.

Experiencia inmersiva: el visitante no solo “navega”, sino que explora, pregunta, descubre.

Casos de uso reales

Aunque Chema Alonso ya tiene el suyo, 3DAIS no está pensado solo para figuras públicas. Es una herramienta que ya están empezando a usar:

Creadores de contenido e influencers: como una versión evolucionada de su link-in-bio, donde pueden mostrar contenido exclusivo, conectar con fans o vender directamente.

Profesionales tech o freelance: como tarjeta de presentación viva, con portfolio, calendario y contacto.

Artistas, músicos o diseñadores: como galería interactiva y escaparate multimedia.

Figura 7: Exprésate cómo tú eres en 3DAIS

Además, recuerda que con los Avatares VRM puedes hacer muchas más cosas que solo crearle su 3DAIS, así que tener tu propio Avatar VRM es un "must".

- Crear tu Avatar VRM híper-realista a partir de tu rostro en MyPublicInbox con Union Avatars

- Diez ideas 10 para crear contenido viral con tu Avatar VRM

- Cómo jugar a VRast! (VRM Fighting Game) con tu propio Avatar VRM

- Todo sobre Avatares VRM: Cómo crearlos y usarlos en mundos 3D/VR/XR/AR

- Toma control de tu Avatar: Escanéate en·3D y obtén tu VRM

Figura 8: Avatar Cartoon de Chema Alonso en Union Avatars

El futuro del yo digital

3DAIS propone una idea que puede parecer sencilla pero que apunta muy lejos: no limitarse a mostrar quién eres, sino crear un espacio donde “estar”. Donde tu identidad digital no sea solo un conjunto de links o un muro de texto, sino una experiencia inmersiva con la que cualquiera pueda interactuar, entenderte y recordarte.

Figura 9: Crea tu propio 3DAIS

Y si has llegado hasta aquí, la pregunta lógica es ¿y si tú también tuvieras tu propio 3DAIS? 👉 Puedes solicitar acceso en: https://unionavatars.com/3dais

Un saludo,

Autor: Cai Felip, CEO de Union Avatars

Figura 14: Contactar con Cai Felip, CEO de Union Avatars

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

sábado, agosto 16, 2025

¿Está vivo el "sueño" del Metaverso? Second Life se apunta al formato GLB del Metaverse Standards Forum

domingo, agosto 10, 2025

De “El cortador de césped” a Genie 3: El futuro que imaginamos con mundos virtuales en tiempo real

martes, junio 03, 2025

Physical AI para Robots: Training con Digital Twins, Digital "Cousins" y Digital "Nomads" para pasar el Physical Turing Test

miércoles, abril 09, 2025

3DAIS: Tu oficina en Internet gestionada por tu Avatar VRM Powered by AI

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Entradas populares

Buscar artículo

Singularity Hackers

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Agradecimientos en Tempos

Libro Pentesting con FOCA

Etiquetas

ChemaBot

Un informático en el lado del mal

Hacking & Pentesting con Inteligencia Artificial

Contactos y RRSS

WhatsApp INTelligence

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

sábado, agosto 16, 2025

¿Está vivo el "sueño" del Metaverso? Second Life se apunta al formato GLB del Metaverse Standards Forum

domingo, agosto 10, 2025

De “El cortador de césped” a Genie 3: El futuro que imaginamos con mundos virtuales en tiempo real

martes, junio 03, 2025

Physical AI para Robots: Training con Digital Twins, Digital "Cousins" y Digital "Nomads" para pasar el Physical Turing Test

miércoles, abril 09, 2025

3DAIS: Tu oficina en Internet gestionada por tu Avatar VRM Powered by AI

Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Entradas populares

Buscar artículo

Singularity Hackers

Reunirse con Chema Alonso

Chat Público de "El lado del Mal"

Agradecimientos en Tempos

Libro Pentesting con FOCA

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection