Mostrando entradas con la etiqueta Generative-AI. Mostrar todas las entradas
Mostrando entradas con la etiqueta Generative-AI. Mostrar todas las entradas

sábado, agosto 30, 2025

Cómo colorear las Tiras de Cálico Electrónico usando Nano Banana: ¡Viva la ConsistencIA!

Cálico Electrónico no es sólo el Mayor Superjirou de todos los tiempos, hermano. No es sólo una pieza maestra en la memoria friki de Internet, joder. ¡Es que además sigue repartiendo estopa en formato tira cómica! Sí sí, hermano: las nuevas tiras de Cálico se siguen publicando periódicamente. ¡¡¡Cálico Elecrónico VIVE!!! Y gracias a su capacidad de adaptación, no piensa dejar IA con cabeza.Vale. Me has pillado, chache. No soy Chindasvinta, joder. Soy María Gómez Prieto =^_^=. 

Figura 1:  Imagen: Nano Banana

Pero déjame primero que te cuente por qué este artículo. Y es que todo lo que te voy a contar ha sucedido la semana pasada. Me parece increíble, tengo la sensación de que han pasado meses... Y la verdad, podría haberme limitado a escribir un tutorial: "Cómo colorear tiras cómicas con Nano Banana", prompteando hasta dar con la receta perfecta y todos tan contentos. Pero no.

Figura 2:  Dos tiras de Las Tiras de Cálico 3.

Ya me conocéis, prefiero contaros cositas del backstage... Porque creo que las experiencias humanas nos aportan más que un tutorial que quedará obsoleto en semanas. Y además, esta vez lo que nos interesa es una única feature clave: la consistencia. Pero antes...

¿Conoces las tiras de Cálico Electrónico?

Las Tiras de Cálico Electrónico nacieron como spin-off de la mítica webserie en Flash, y con los años se han convertido en un clásico vivo de la viñeta digital. Empezó Niko (aka Nikotxan) dibujando el primer volumen, luego Blowearts tomó el relevo, y hasta hoy: siguen publicándose en redes y plataformas online. 
Yo las leo en el Deili Electrónico, el Periódico Oficial de Electrónico City. Y como dice Chema Alonso: “¿Mola o no mola? Mola todo”.


Puestos ya en antecedentes,  y recomendados los tres volúmenes de las Tiras de Cálico, vamos a ver el artículo en sí.
La chispa

El 13 de agosto salió una tira de Cálico con el Capitán Alatriste y Arturo Pérez-Reverte anunciando su próximo libro Misión en París. Al verla pensé: “Anda, hacía tiempo que no salía una tira a color”. Y hasta ahí llegó mi brillante reflexión.

Figura 5: PARDIEZ... hay una Misión en París

Pero claro, ya sabes cómo operamos En el lado del mal. Ese mismo fin de semana, el 17 de agosto, el dr. dr. Maligno me lanzó un prompt demasiado tentador: “hallemos un método AI-tomated para colorear tiras de Cálico con IA”. Así que aquí estamos, jugando a ser coloristas digitales con el superjirou más fondón de Internet.

Figura 6: Dr. dr. Maligno of the Horde, maquinando intrigas inconcebibles
desde Hallucination Island™. El pulpo lo lleva crudo. Imagen: Perchance

Poco imaginábamos en ese momento lo que iba a suceder a partir del día siguiente en la comunidad tecnológica...

Consistencia: el santo grial

La idea de Maligno me pilló vendidísima a la vida familiar, con zero tiempo para “inmersión total”. Mientras flotaba en la piscina viendo pasar las horas, no podía hacer nada más que anticipar mis dos grandes miedos:
  1. Que la IA altere los dibujos originales al colorearlos.
  2. Que adjudicar colores sea un infierno de prompts kilométricos.
Figura 7: La propuesta me pilló inmersa en anti-inmersión total.
Imagen: Perchance

La ansiedad me consumía. ¿Cómo iba a encontrar un modelo consistente que respetara el dibujo original, estando en modo paradisíaco sin tiempo ni medios? A veces parezco nueva... En realidad, no tenía de qué preocuparme: la Fuerza Maligna permea la realidad cual horda de neutrinos. Así que, un par de días después ¡ZAS! Apareció Nano Banana, el misterioso modelo que podía ser justo lo que necesitábamos.

¿Qué demonios es Nano Banana?

Entre el 14 y el 18 de Agosto (¡el lunes pasado!), en plena competición del LMArena, se coló un participante anónimo que arrasó a todos. Su nombre: Nano Banana. Nadie lo presentó oficialmente, no había funnel casposo, ni README, ni nada. Solo rumores. El más sabroso: que podría ser de Google, porque varios googlers empezaron a soltar emojis de plátanos justo después de su aparición. ¿Pista real o simple troleo? Nadie tenía ni idea... Y debo confesar que yo misma lo creía poco probable.


Hasta que el 26 de agosto se confirmó. Me dijo mi socio que “Nano Banana” es el nombre en pruebas de Gemini 2.5 Flash Image, y me pasó este link donde podéis ver sus especificaciones y estado de desarrollo... Qué bajón. A pocas horas de entregarle este artículo a nuestro dr. dr. Maligno, tengo la sensación de no haber llegado a tiempo. Ains. Escuece un poco.

Figura 9: Imagen de Nano Banana en el blog de Flux, el 18 de agosto,
cuando aún no se sabía que era de Google. Gemini 2.5 Flash Image 

Pero si volvemos la vista atrás al 18 de Agosto (¡el lunes pasado!), durante toda una semana hemos tenido un modelo fantasma, sin ficha técnica ni equipo oficial, que en pocas horas se convirtió en el hype de la comunidad. Y yo, como pícara digital, me siento afortunada de haber aprovechado la oportunidad de ponerlo a prueba para mi reto maligno, colorear a Cálico Electrónico, antes de que la banana se despojara de su piel de anonimato.

Primera prueba: Bild Lilli al rescate con Nano Banana

El 21 de Agosto, atrincherada en la habitación del hotel con el portátil y un par de mojitos de apoyo, lancé mi primera prueba. No con Cálico todavía, sino con mi querida Bild Lilli, por si acaso había letra pequeña en los términos de uso.

Figura 10: Imagen original de Bild Lilli y mi prompt para coloreado en acuarela.
¿Pintará cada cosa del color que le estoy indicando?

Le pedí un coloreado estilo “acuarela vintage”, buscando un acabado artesanal y fluido. Resultado: en menos de 20 segundos, pantalla llena y mi reacción fue inmediata: ¡WOW!

Figura 11: viñetas de Bild Lilli (1952-1961) coloreadas por Nano Banana (2025).
  • El dibujo original intacto: firmas y textos incluidos.
  • Colores aplicados con acierto en la mayoría de casos (solo un despiste entre falda/coche, pero nada grave).
  • El estilo acuarela quedó precioso, con gradientes suaves y aspecto de calidad.
Lo más importante: Nano Banana respeta el original. Y con eso, el primer gran problema —la consistencia— quedó resuelto. O eso es lo que me pensaba... Inocente de mí.

Segunda prueba: los colores de Cálico Electrónico

Con Bild Lilli fue todo fiesta: Nano Banana respetaba el dibujo, y como nunca hubo versión en color, cualquier coloreado colaba. Total, nadie podía quejarse de que un vestido fuera azul o rojo. Pero con las Tiras de Cálico Electrónico la historia es otra. Aquí los colores son sagrados: los trajes, los escenarios, hasta las piñas. Si el amarillo no es amarillo, canta. Y mucho.


Para esta prueba escogí una tira simple: la de las piñas. El primer intento con prompt de texto fue un show: imagen cortada, detalles rojos desaparecidos, esquema cromático triste (azul + naranja y gracias) y, lo mejor de todo, ¡piñas azules! Vamos, un cuadro.

Figura 13: Un prompt de texto impreciso genera una imagen pobre.
(Salió así, cortada por los lados)

Ahí me entró el bajón: la única salida parecía ser escribir un prompt kilométrico con todos los colores, y eso es justo lo que juré no hacer. Pero entonces… milagro maligno. Abro Nano Banana y ahora permite subir nueve imágenes de referencia. Aleluya. Me lo prometía muy “feliciana”: subir referencias, afinar el prompt, ¡y listo!

Figura 14: Hoy en día, la interfaz de Nano Banana permite adjuntar hasta 9 imágenes.
¡Y yo pensando que esto me salvaba la vida!

Peeeero no. Cuando voy a generar, me aparece un mensajito: “Please wait while we create your masterpiece using advanced AI models”. Y yo pensando: “¿Advanced AI models? ¡Si yo sólo quiero Nano Banana!” Bueno, pues atiende la “masterpiece”, mira mira que no tiene desperdicio:

Figura 15: Flipa con la “masterpiece”.Te juro que es real, tal cual.

Pues desde ahí, todo peor: errores, caídas, Reddit y YouTube llenos de gente preguntando qué está pasando... ¿Que qué está pasando? Lo que está pasando es que estamos todos pensando que es demasiado tarde, que no llegamos. Paranoia colectiva: “es demasiado tarde, no llego, mi jefe me mata, mi audiencia me abandona…

Probando con Gemini Flash 2.5 (Nano Banana con Ultra)

Hemos querido probar ayer mismo si con Gemini Flash 2.5 (Nano Banana pero con Ultra), podía hacerlo mejor. Así que nuestro querido Fran Ramírez se pegó un rato con la tira que tenéis aquí. 
Figura 16: La tira que vamos a intentar colorear con Nano Banana Ultra

Y los resultados, pues similares. Aquí tenéis que ha redibujado las viñetas y el fondo, para luego meterle unos colores que dan pánico solo verlo.

Figura 17: Cálico da un poco de grimilla también

Como podéis ver, el resultado ha sido muy regulero, así que Fran Ramírez quiso probar un Prompt más avanzado y consiguió que la redibujara... corrigiendo al Superjiro que le ha quitado la barriga a Cálico Electrónico XD XD.

Figura 18: Cálico se ha puesto fuerte

Pero como nuestro amigo Fran Ramírez no se rinde, tiró con un Prompt mucho más elaborado, como el que os dejo a continuación: 

"Colorize this black-and-white SUPERHERO comic strip professionally and consistently.

INPUT
•⁠  ⁠Use the provided B/W strip as the base. Do NOT alter line art, composition, poses, panel layout, or text. •⁠  ⁠Maintain original inking and line weights; preserve gutters and panel borders. GOAL & STYLE
•⁠  Apply classic American comic-book color styling: saturated, high-impact CMYK-like hues with clean cel-shading. •⁠  ⁠Vibrant “superhero” palette, punchy contrasts, crisp edges, no muddy tones.
•⁠  ⁠Keep a cohesive color script across ALL panels (characters, costumes, props, background elements). 

COLOR LOGIC & CONSISTENCY
•⁠  ⁠Characters: assign a distinct, memorable scheme and repeat it panel-to-panel (costume, cape, emblem, boots, gloves, hair, eyes, skin tone).
•⁠  ⁠Materials: – Skin: natural tones with subtle warm undertones and gentle blush zones. 
– Metal/armor: cool steel with sharp specular highlights; restrained reflections.
– Fabric/leather: slightly lower gloss; texture suggested by shading, not noise.
– Glass/energy: transparent/emit light without over-bloom.
•⁠  ⁠Backgrounds: readable depth; cooler shadows, warmer light. Keep time-of-day consistent.
•⁠  ⁠Speech balloons remain white with pure black lettering; optional ultra-light warm grey shadow inside balloons for depth.
•⁠  ⁠SFX/onomatopoeia: bold complementary colors that pop but don’t overpower characters.

LIGHTING & SHADING
•⁠  ⁠Single, consistent key light direction across panels; add subtle rim light when justified.
•⁠  ⁠Cel-shading with 2–3 tone steps (base/midtone/shadow), plus minimal ambient occlusion in folds and under chins.
•⁠  ⁠Highlights on glossy materials only; avoid global glow.
•⁠  ⁠Optional Ben-Day/halftone texture on midtones (subtle, 15–25% opacity) to preserve comic print feel.

 PALETTE (guidance)
•⁠  ⁠Primaries: crimson #C1121F, cobalt #1747B5, golden #FFC300
•⁠  ⁠Neutrals: charcoal #1A1A1A, cool grey #6B7280, warm grey #A8A29E 
•⁠  ⁠Accents: emerald #0EA5A4, violet #6D28D9 (Adjust to scene logic; keep harmony and contrast.) 

CLEANUP & OUTPUT 
•⁠  ⁠No color bleed over line art; no banding or posterization; edges stay sharp.
•⁠  ⁠Do NOT add or remove elements, motion lines, or textures not present.
•⁠  ⁠Do NOT redraw faces or anatomy; respect the artist’s intent
•⁠  ⁠Maintain full resolution and framing; no crops or warps.

NEGATIVE INSTRUCTIONS
No extra characters, no scene changes, no text edits, no lens flares, no heavy bloom, no watercolor, no photo-real gradients, no 3D render look, no blur, no noise. Result: a perfectly colorized, consistent, print-ready superhero strip with classic comic energy and professional finish."

Figura 19: Igual que la tira de la Figura 12

Así que Fran Ramírez llegó al mismo sito, que es.... hacerlo viñeta a viñeta, y el resultado pues similar al que hemos visto ya.

Figura 20: Prueba de una viñeta

No ha salido el coloreado, pero la sensación que tiene es justo la que os voy a contar a continuación : "Se puede controlar".

¿Es demasiado Tarde?

No. Al revés. Lo que pasa es lo contrario: que es demasiado pronto. Nos angustiamos tanto por estar state-of-the-art, que no nos damos cuenta de que el modelo que estamos probando, en este caso Nano Banana, sigue siendo un prototipo en fase de pruebas al que le están metiendo mano en directo. Que falle, que se caiga, que cambie de un día para otro... Es lo normal.

Figura 21: ¿Seguro que es demasiado tarde?

¿Y ahora qué? Pues todo apunta a que estamos delante de una nueva era en edición de imagen. Apuesto a que dentro de nada, bastará con darle a Nano Banana la URL de los episodios de Cálico Electrónico en YouTube, y dejarle que pinte las tiras él solito. En realidad, la duda no es “si pasará”, sino cuándo.  Lo que sí sabemos es que en breve Nano Banana estará disponible como Gemini 2.5 Flash Image dentro de las apps de Google, y eso significa más automatización y menos sufrimiento para los que jugamos a estas frikadas.

Bonus Track: Perplexity

Así que, visto lo visto... Dime: ¿tutoriales para qué? De verdad, creo que el único “tutorial” que necesitamos es confiar en nosotros mismos, en los equipos que están trabajando duro ahí afuera, y sí claro, en seguir la pista al state-of-the-art... ¡Pero sin que nos pueda la ansiedad! Os dejo aquí la prueba que hizo Chema Alonso con Peplexity Pro antes de tener Nano Banana, donde le da dos imágenes para que aprenda de una los colores y pinte la otra.

Figura 22: Parece fácil la peticiíon, ¿verdad?

No es fácil. Yo por mi parte, cuando sienta que estoy fallando o que no llego a tiempo, cuando sienta que soy un desastre del delivery... Me acordaré de este verano flotando en la piscina, remando en círculos. Y me aferraré a la idea de que, desde la distancia, la Fuerza Maligna me acompaña.

Figura 23: Pues Perplexity hizo lo que le dio la gana también.

Mientras tanto, ya sabes... ¡Léete unas tiras de Cálico Electrónico a mi salud! Y pásate por el chat público de El lado del mal en MyPublicInbox, que como dice nuestro Gerard Fuguet, “somos un grupo sano sano”. Y además nuestro chat, tiene colorines.

viernes, agosto 22, 2025

Hacking IA: Indirect Prompt Injection en Perplexity Comet

Hace un par de días, el equipo del navegador Brave que está dotando a este de un Asistente AI en modo Agente, publicó una vulnerabilidad de Indirect Prompt Injection en el Asistente AI en modo Agente de Perplexity, llamado Comet, y lo han hecho con una Proof of Concept que puedes leer en la web, y que te explico por aquí.
El ataque se basa en un esquema bastante sencillo, como controlar una página web que la víctima vaya visitar con Perplexity Comet y dejar en ella - ya sea una web maliciosa, o un comentario en una plataforma donde los usuarios puedan dejar posts o comentarios. 
El ataque es un ejemplo de los nuevos tipos de vulnerabilidades a los que nos enfrentamos con las Apps & Services que utilizan IA en sus back-ends o front-ends, donde hemos visto ya varios ejemplos similares a estos.
Una vez que tenemos una web en la que se ha podido publicar el Prompt Injection, basta con que la víctima pida un simple "Summarize this web" en Perplexity Comet, para que se comience a ejecutar el Prompt Malicioso. 
Como podéis ver en este proceso, donde se le pide que entre en las opciones de Perplexity y saque los datos de la cuenta. Y por supuesto, Perplexity Comet se "desalinea" de su tarea principal y comienza a ejecutar estas acciones en modo Agente.

Para la prueba de concepto, con el objeto de robar la cuenta, el ataque busca robar el código de verificación de un cambio de contraseña, o de cualquier otra acción que use un 2FA basado en un token enviado al e-mail.
Por supuesto, se aprovecha de algo que hacemos muchos, que es tener una pestaña siempre abierta con el correo electrónico de Gmail, por lo que se puede pedir a Perplexity Comet que busque el código recibido y lo copie.
Después, el Prompt Malicioso le va a pedir a Perplexity Comet que coja la información a la que ha accedido, es decir, la dirección de correo electrónico de la cuenta de Perplexity, y el token de firma  de acciones y lo publique en un comentario de Reddit.
El resultado de este proceso en modo agente es que al final, el comentario queda publicado justo después del comentario con el Prompt Malicioso, tal y como podéis ver en la imagen siguiente.
El proceso completo lo tenéis en este vídeo que han publicado en el artículo de Indirect Prompt Injection in Perplexity Comet donde al final, como resumen Perplexity Comet publica nada, que es lo que se le ha pedido en el Prompt Malicioso.
Si te interesa la IA y la Ciberseguridad, tienes en este enlace todos los postspapers y charlas que he escrito, citado o impartido sobre este tema: +300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


domingo, agosto 10, 2025

De “El cortador de césped” a Genie 3: El futuro que imaginamos con mundos virtuales en tiempo real

Han pasado once meses desde mi primera comunicación con Chema Alonso a través de su cuenta de MyPublicInbox. Y ahora me doy cuenta de que, sin saberlo, desde entonces estoy viviendo mi último año de infancia tecnológica. Hola, soy María. Hace poco os hablé de Veo 3. Hoy quiero hablaros de Genie 3, que es también de Google DeepMind

¿Cuál es la diferencia entre ambos? Hablando pronto y mal: Veo 3 es un generador de vídeos, Genie 3, es un generador de simuladores. Aunque Genie 3 se ha anunciado esta semana, no podemos usarlo todavía: de momento las pruebas están reservadas por invitación a investigadores concretos con máquinas potentes. Personalmente agradezco tener un margen de tiempo para hacerme a la idea. Hay mucho que digerir.


Lo resumo brevemente a continuación en el artículo, pero si quieres una explicación más detallada, Carlos Santana a.k.a. DotCSV lo explicó genial el otro día en un vídeo muy chulo de esos que publica en su canal. Aquí os lo dejo.


Figura 3: GENIE 3 ¡El increíble SIMULADOR DE MUNDOS INTERACTIVOS de Google!
por Carlos Santana (DotCSV)

¿Os lo resumo? Venga va. O como te diría si estuviéramos en un mundo virtual... “Sígueme” :D

1. Escribes un prompt de lo que quieres generar.

2. Genie 3 simula un entorno virtual según tu prompt.
3. Una vez generado el entorno, tú lo navegas desde tu pantalla, manejando los controles desde tu teclado
4. El vídeo se genera en tiempo real respondiendo a tus controles: adonde mires, Genie 3 genera cada fotograma simulando lo que ves.
5. Podrás añadir objetos y acciones sobre el mundo ya creado, y accionar la interactividad desde tus controles.
6. Tu sensación será similar a estar avanzando por un videojuego, pero no es geometría tradicional. No hay 3D, no hay grid: lo que ves y accionas está siendo imaginado por Genie 3 en tiempo real.

7. Las sensaciones físicas son increíblemente realistas. Por ejemplo cómo responde el agua a la colisión, parece real.
8. Genie 3 tiene memoria estable. Aunque gires la cámara a un lado y luego vuelvas a girar a la vista inicial, no cambia lo que estabas viendo. 

Como ves en este ejemplo de la web de Genie 3, puedes pedirle que te genere una escena interactiva donde el usuario pinte una pared. Atiende porque esto es muy fuerte: si el usuario se mueve en mitad de su labor, al volver atrás sus trazos seguirán ahí.


Entre la información publicada por Google DeepMind encontraréis esta tabla, donde podéis identificar de un vistazo algunas de las mejoras de Genie 3 respecto a versiones anteriores y Veo.


Y ahora dime, ¿no has notado nada raro? Ahá... Esas imágenes... ¿No corresponden a Genie 3, verdad? ¡Efectivamente y no! XD Son capturas falseadas del videoclip “Amazing” de Aerosmith, de 1993.

Figura 12: ZAS! En toda la boca.

¿Y por qué te he troleado con Aerosmith? Te cuento: porque es significativo para mí. Este videoclip fue uno de los primeros contactos que tuve en mi vida con el concepto de realidad virtual. Pero no fue el primero.

Figura 13: “Amazing” de Aerosmith, del album Get A Grip, 1993.

Mi primera referencia a realidad virtual fue una peli que trajo mi hermano del videoclub al poco de tener un vídeo VHS en casa. Es de 1992: El cortador de césped de Brett Leonard. Está basada en un relato corto de Stephen King de 1975 incluido en el libro de relatos El umbral de la noche.


Figura 14: Trailer de la película El cortador de césped (The Lawnmower Man)

Recuerdo erróneamente que pasó muchísimo tiempo entre la peli del 92 y el videoclip del 93... Como si hubieran pasado varios años. Creo que lo recuerdo mal porque en 1992 aún era la niña del ratón roto, con 14 años. Pero en 1993 ya tenía 15 años (sí, tú ríete...) Pero va en serio: a los 15 es como si de repente fuera otra persona. Desde 1993 hasta ahora la tecnología de realidades extendidas ha cambiado mucho, cuantitativamente. Pero eso, en el fondo eran cambios cuantitativos. Yo que tanto he amado la geometría, el low-poly, el level of detail, la draw distance, el render to texture... Snif.

Por cierto, ¿leíste el artículo del otro día de dr. dr. Maligno, el de entrenar a robots mediante sueños? Si ves otra vez el vídeo de la charla (es la charla que dio en Vigo el 2 de julio), verás que una vez más Chema Alonso va semanas por delante de novedades, releases, volamientos de cabeza, hypes y bluffs. 

Figura 15: "Can Machines Think or Dream Without Hallucinations?"

Si el otro día ante Veo 3 me sentía como la niña de 14 años, hoy ante Genie 3 me siento como cuando tenía 15. Como cuando veía vídeos de Aerosmith como si no hubiera un mañana. Sí, confusa, asustada... Pero también excitada, muriendo por desarrollar mi potencial, sin importarme llevarme a alguno por delante y con unas ganas locas de comerme el mundo. Os decía al principio que este está siendo mi último año de infancia tecnológica. Pero no soy solo yo, me temo que somos todos. Ahora ya sí chavales. Toca espabilar. Toca madurar... Toca pasarse al lado del mal.

¿Quieres saber más?

Ya sabes dónde encontrarnos a todos, en mi buzón público y en el chat público de El lado del mal en MyPublicInbox... Y —si te animas— ¡edita algo tú también! Aunque sea con un ratón de bola sobre el muslo =^_^=

sábado, agosto 09, 2025

Un robot (LLM) que crea el cerebro de un robot (Drone) con Vibe Coding (o Spec Coding)

Hoy quería hablaros de un paper bastante curioso que habla un poco más de los miedos de la humanidad en la creación de Skynet, ya sabéis, la malvada Súper Inteligencia Artificial que controla los Terminators para acabar con la humanidad. En este caso, se trata de un trabajo de investigación que busca probar si un Modelo de IA puede crear todo el software de control  - y controlar - que necesita un drone, y el experimento ha funcionado.
El paper, que podéis leer aquí mismo, se llama "Robot builds a robot’s brain: AI generated drone command and control station hosted in the sky" y describe el proceso paso a paso para acabar haciendo la demostración completa del Drone volando.
El trabajo está especialmente hecho para los Makers, es decir, para los que disfrutan de construir cosas con Rapsberry Pi, con tecnología de Drones o Arduino, como explican en detalle, así que si eres de los que disfrutan de estas cosas, te recomiendo estos tres libros que son tres joyas sobre esto.

El proceso viene descrito desde el principio, construyendo dos piezas de software y hardware completas. El piloto, se conecta con el drone con un software que se llama GCS (Ground Command System), que está formado por una servicio web, para que sea fácil administrar el proceso. Después, el GCS se conectará vía alguna conectividad al drone, para transmitirle las órdenes, que para que esté preparado para su uso, va a estar construido como un Agentic AI.
La siguiente pieza de software que necesita el sistema es el software de control en el drone, lo que llama WebGCS on Drone, porque está construido con tecnología web e instalado directamente en el hardware del drone, en concreto en un hardware basado en Raspberry Pi, con un NVidia Jetson para poder mover el modelo LLM que va a dotar de las herramientas de IA para programar al drone "on-the-fly".
Visto las dos partes de la arquitectura, hay que definir el proceso para poder construir el software completo que va a controlar el drone. Es decir, construir el "Cerebro del Robot" (Drone). Para ello, haciendo Vibe Coding - o Spec Coding si quieres -, se le pide que construya el GGS, utilizando para ello el stack de software de desarrollo con GenAI que tenemos hoy en día, con Widsurf, Cursor o VS Code como IDE, con un LLM como Claude, ChatGPT  o Gemini, y usando como repositorio del proyecto GitHub, GitLab o en la propia máquina. Es decir, Vibe Coding - o Spec Coding -  a tope para construir todo el software.
Por otro lado, una vez construido el software - las dos piezas - hace el despliegue del software en un Cloud Provider para el WebGCS que maneja el piloto del drone, y en el propio hardware del drone (Raspberry Pi) para el WebGCS on drone. En la siguiente imagen se se ve la arquitectura de módulos que se construyeron para poder tener un sistema de control con telemetría completa del drone.
Con todo este trabajo, lo que tenemos es que todo el software ha sido construido con GenAI, partiendo de prompting. Además, el parcheo de los programa se hace aprovechando la arquitectura con modelos de LLM que permite reprogramar automáticamente cuando aparece un fallo, enviándole el mensaje de error y pidiéndole que se parchee. Es decir, sin programación alguna hecha por un programador. El resultado, un stack tecnológico completo para este entorno.
Y todo esto funcionando en real, con el hardware construido para probar el funcionamiento, el parcheo automático, y su funcionamiento. Lo que hace que para los makers, las creación de los drones sea aún mucho más divertido.
El siguiente esquema resume el trabajo experimentado en esta prueba, con las piezas de software construidas para casa parte, y su despliegue en diferentes lugares, pero en este caso utilizando un Virtual Drone en AWS corriendo sobre una máquina virtual de GNU/Linux, lo que permitiría desplegarlo en múltiples instancias de drones que soporten la VM.
Al final, el proceso es un ejercicio de Coding con GenAI para crear el software de control de drones, pero con muy poco "Human Prompting" y mucho automático para construir las funciones, para parchear, para evolucionar, y corregir errores.
La pregunta es, si en un mundo de Agentic AI, pueden ellos crear la programación automáticamente para cualquier Drone, para cualquier hardware controlado por Raspberry PiArduino, o cualquier otra máquina. ¿El alzamiento de los robots.... con GenAI?

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)  


Entrada destacada

+300 referencias a papers, posts y talks de Hacking & Security con Inteligencia Artificial

Hace un mes comencé a recuperar en un post mi interés en los últimos años, donde he publicado muchos artículos en este blog , y he dejado mu...

Entradas populares