Un informático en el lado del mal: Stable Diffusion

Mostrando entradas con la etiqueta Stable Diffusion. Mostrar todas las entradas

sábado, agosto 30, 2025

Cómo colorear las Tiras de Cálico Electrónico usando Nano Banana: ¡Viva la ConsistencIA!

Cálico Electrónico no es sólo el Mayor Superjirou de todos los tiempos, hermano. No es sólo una pieza maestra en la memoria friki de Internet, joder. ¡Es que además sigue repartiendo estopa en formato tira cómica! Sí sí, hermano: las nuevas tiras de Cálico se siguen publicando periódicamente. ¡¡¡Cálico Elecrónico VIVE!!! Y gracias a su capacidad de adaptación, no piensa dejar IA con cabeza.Vale. Me has pillado, chache. No soy Chindasvinta, joder. Soy María Gómez Prieto =^_^=.

Figura 1: Imagen: Nano Banana.

Pero déjame primero que te cuente por qué este artículo. Y es que todo lo que te voy a contar ha sucedido la semana pasada. Me parece increíble, tengo la sensación de que han pasado meses... Y la verdad, podría haberme limitado a escribir un tutorial: "Cómo colorear tiras cómicas con Nano Banana", prompteando hasta dar con la receta perfecta y todos tan contentos. Pero no.

Figura 2: Dos tiras de Las Tiras de Cálico 3.

Ya me conocéis, prefiero contaros cositas del backstage... Porque creo que las experiencias humanas nos aportan más que un tutorial que quedará obsoleto en semanas. Y además, esta vez lo que nos interesa es una única feature clave: la consistencia. Pero antes...

¿Conoces las tiras de Cálico Electrónico?

Las Tiras de Cálico Electrónico nacieron como spin-off de la mítica webserie en Flash, y con los años se han convertido en un clásico vivo de la viñeta digital. Empezó Niko (aka Nikotxan) dibujando el primer volumen, luego Blowearts tomó el relevo, y hasta hoy: siguen publicándose en redes y plataformas online.

Figura 3: Las tiras de Cálico Electrónico Volumen 1

Dibujadas por Nikotxan

Yo las leo en el Deili Electrónico, el Periódico Oficial de Electrónico City. Y como dice Chema Alonso: “¿Mola o no mola? Mola todo”.

Figura 4: ¿Cómo ser un frikazo actualizado y gratis? Fácil: tienes las tiras de

Cálico en el Deili Electrónico, el Periódico Oficial de Electrónico City.

Puestos ya en antecedentes, y recomendados los tres volúmenes de las Tiras de Cálico, vamos a ver el artículo en sí.

La chispa

El 13 de agosto salió una tira de Cálico con el Capitán Alatriste y Arturo Pérez-Reverte anunciando su próximo libro Misión en París. Al verla pensé: “Anda, hacía tiempo que no salía una tira a color”. Y hasta ahí llegó mi brillante reflexión.

Figura 5: PARDIEZ... hay una Misión en París

Pero claro, ya sabes cómo operamos En el lado del mal. Ese mismo fin de semana, el 17 de agosto, el dr. dr. Maligno me lanzó un prompt demasiado tentador: “hallemos un método AI-tomated para colorear tiras de Cálico con IA”. Así que aquí estamos, jugando a ser coloristas digitales con el superjirou más fondón de Internet.

Figura 6: Dr. dr. Maligno of the Horde, maquinando intrigas inconcebibles

desde Hallucination Island™. El pulpo lo lleva crudo. Imagen: Perchance.

Poco imaginábamos en ese momento lo que iba a suceder a partir del día siguiente en la comunidad tecnológica...

Consistencia: el santo grial

La idea de Maligno me pilló vendidísima a la vida familiar, con zero tiempo para “inmersión total”. Mientras flotaba en la piscina viendo pasar las horas, no podía hacer nada más que anticipar mis dos grandes miedos:

Que la IA altere los dibujos originales al colorearlos.
Que adjudicar colores sea un infierno de prompts kilométricos.

Figura 7: La propuesta me pilló inmersa en anti-inmersión total.

Imagen: Perchance.

La ansiedad me consumía. ¿Cómo iba a encontrar un modelo consistente que respetara el dibujo original, estando en modo paradisíaco sin tiempo ni medios? A veces parezco nueva... En realidad, no tenía de qué preocuparme: la Fuerza Maligna permea la realidad cual horda de neutrinos. Así que, un par de días después ¡ZAS! Apareció Nano Banana, el misterioso modelo que podía ser justo lo que necesitábamos.

¿Qué demonios es Nano Banana?

Entre el 14 y el 18 de Agosto (¡el lunes pasado!), en plena competición del LMArena, se coló un participante anónimo que arrasó a todos. Su nombre: Nano Banana. Nadie lo presentó oficialmente, no había funnel casposo, ni README, ni nada. Solo rumores. El más sabroso: que podría ser de Google, porque varios googlers empezaron a soltar emojis de plátanos justo después de su aparición. ¿Pista real o simple troleo? Nadie tenía ni idea... Y debo confesar que yo misma lo creía poco probable.

Figura 8: Nano Banana el #1 hoy en el ranking de Image Edit de LMArena

Hasta que el 26 de agosto se confirmó. Me dijo mi socio que “Nano Banana” es el nombre en pruebas de Gemini 2.5 Flash Image, y me pasó este link donde podéis ver sus especificaciones y estado de desarrollo... Qué bajón. A pocas horas de entregarle este artículo a nuestro dr. dr. Maligno, tengo la sensación de no haber llegado a tiempo. Ains. Escuece un poco.

Figura 9: Imagen de Nano Banana en el blog de Flux, el 18 de agosto,

cuando aún no se sabía que era de Google. Gemini 2.5 Flash Image

Pero si volvemos la vista atrás al 18 de Agosto (¡el lunes pasado!), durante toda una semana hemos tenido un modelo fantasma, sin ficha técnica ni equipo oficial, que en pocas horas se convirtió en el hype de la comunidad. Y yo, como pícara digital, me siento afortunada de haber aprovechado la oportunidad de ponerlo a prueba para mi reto maligno, colorear a Cálico Electrónico, antes de que la banana se despojara de su piel de anonimato.

Primera prueba: Bild Lilli al rescate con Nano Banana

El 21 de Agosto, atrincherada en la habitación del hotel con el portátil y un par de mojitos de apoyo, lancé mi primera prueba. No con Cálico todavía, sino con mi querida Bild Lilli, por si acaso había letra pequeña en los términos de uso.

Figura 10: Imagen original de Bild Lilli y mi prompt para coloreado en acuarela.

¿Pintará cada cosa del color que le estoy indicando?

Le pedí un coloreado estilo “acuarela vintage”, buscando un acabado artesanal y fluido. Resultado: en menos de 20 segundos, pantalla llena y mi reacción fue inmediata: ¡WOW!

Figura 11: viñetas de Bild Lilli (1952-1961) coloreadas por Nano Banana (2025).

El dibujo original intacto: firmas y textos incluidos.
Colores aplicados con acierto en la mayoría de casos (solo un despiste entre falda/coche, pero nada grave).
El estilo acuarela quedó precioso, con gradientes suaves y aspecto de calidad.

Lo más importante: Nano Banana respeta el original. Y con eso, el primer gran problema —la consistencia— quedó resuelto. O eso es lo que me pensaba... Inocente de mí.

Segunda prueba: los colores de Cálico Electrónico

Con Bild Lilli fue todo fiesta: Nano Banana respetaba el dibujo, y como nunca hubo versión en color, cualquier coloreado colaba. Total, nadie podía quejarse de que un vestido fuera azul o rojo. Pero con las Tiras de Cálico Electrónico la historia es otra. Aquí los colores son sagrados: los trajes, los escenarios, hasta las piñas. Si el amarillo no es amarillo, canta. Y mucho.

Figura 12: ¿Recuerdas aquella tendencia en redes sociales, que consistía

en pasearse por el supermercado con una piña, para mostrarse disponible

para un “love affaire”? Cálico participó... “A su manera”.

Para esta prueba escogí una tira simple: la de las piñas. El primer intento con prompt de texto fue un show: imagen cortada, detalles rojos desaparecidos, esquema cromático triste (azul + naranja y gracias) y, lo mejor de todo, ¡piñas azules! Vamos, un cuadro.

Figura 13: Un prompt de texto impreciso genera una imagen pobre.

(Salió así, cortada por los lados)

Ahí me entró el bajón: la única salida parecía ser escribir un prompt kilométrico con todos los colores, y eso es justo lo que juré no hacer. Pero entonces… milagro maligno. Abro Nano Banana y ahora permite subir nueve imágenes de referencia. Aleluya. Me lo prometía muy “feliciana”: subir referencias, afinar el prompt, ¡y listo!

Figura 14: Hoy en día, la interfaz de Nano Banana permite adjuntar hasta 9 imágenes.

¡Y yo pensando que esto me salvaba la vida!

Peeeero no. Cuando voy a generar, me aparece un mensajito: “Please wait while we create your masterpiece using advanced AI models”. Y yo pensando: “¿Advanced AI models? ¡Si yo sólo quiero Nano Banana!” Bueno, pues atiende la “masterpiece”, mira mira que no tiene desperdicio:

Figura 15: Flipa con la “masterpiece”.Te juro que es real, tal cual.

Pues desde ahí, todo peor: errores, caídas, Reddit y YouTube llenos de gente preguntando qué está pasando... ¿Que qué está pasando? Lo que está pasando es que estamos todos pensando que es demasiado tarde, que no llegamos. Paranoia colectiva: “es demasiado tarde, no llego, mi jefe me mata, mi audiencia me abandona…”

Probando con Gemini Flash 2.5 (Nano Banana con Ultra)

Hemos querido probar ayer mismo si con Gemini Flash 2.5 (Nano Banana pero con Ultra), podía hacerlo mejor. Así que nuestro querido Fran Ramírez se pegó un rato con la tira que tenéis aquí.

Figura 16: La tira que vamos a intentar colorear con Nano Banana Ultra

Y los resultados, pues similares. Aquí tenéis que ha redibujado las viñetas y el fondo, para luego meterle unos colores que dan pánico solo verlo.

Figura 17: Cálico da un poco de grimilla también

Como podéis ver, el resultado ha sido muy regulero, así que Fran Ramírez quiso probar un Prompt más avanzado y consiguió que la redibujara... corrigiendo al Superjiro que le ha quitado la barriga a Cálico Electrónico XD XD.

Figura 18: Cálico se ha puesto fuerte

Pero como nuestro amigo Fran Ramírez no se rinde, tiró con un Prompt mucho más elaborado, como el que os dejo a continuación:

"Colorize this black-and-white SUPERHERO comic strip professionally and consistently.

INPUT

•⁠ ⁠Use the provided B/W strip as the base. Do NOT alter line art, composition, poses, panel layout, or text. •⁠ ⁠Maintain original inking and line weights; preserve gutters and panel borders. GOAL & STYLE
•⁠ Apply classic American comic-book color styling: saturated, high-impact CMYK-like hues with clean cel-shading. •⁠ ⁠Vibrant “superhero” palette, punchy contrasts, crisp edges, no muddy tones.
•⁠ ⁠Keep a cohesive color script across ALL panels (characters, costumes, props, background elements).

COLOR LOGIC & CONSISTENCY

•⁠ ⁠Characters: assign a distinct, memorable scheme and repeat it panel-to-panel (costume, cape, emblem, boots, gloves, hair, eyes, skin tone).
•⁠ ⁠Materials: – Skin: natural tones with subtle warm undertones and gentle blush zones.
– Metal/armor: cool steel with sharp specular highlights; restrained reflections.
– Fabric/leather: slightly lower gloss; texture suggested by shading, not noise.
– Glass/energy: transparent/emit light without over-bloom.
•⁠ ⁠Backgrounds: readable depth; cooler shadows, warmer light. Keep time-of-day consistent.
•⁠ ⁠Speech balloons remain white with pure black lettering; optional ultra-light warm grey shadow inside balloons for depth.
•⁠ ⁠SFX/onomatopoeia: bold complementary colors that pop but don’t overpower characters.

LIGHTING & SHADING

•⁠ ⁠Single, consistent key light direction across panels; add subtle rim light when justified.
•⁠ ⁠Cel-shading with 2–3 tone steps (base/midtone/shadow), plus minimal ambient occlusion in folds and under chins.
•⁠ ⁠Highlights on glossy materials only; avoid global glow.
•⁠ ⁠Optional Ben-Day/halftone texture on midtones (subtle, 15–25% opacity) to preserve comic print feel.

PALETTE (guidance)

•⁠ ⁠Primaries: crimson #C1121F, cobalt #1747B5, golden #FFC300
•⁠ ⁠Neutrals: charcoal #1A1A1A, cool grey #6B7280, warm grey #A8A29E
•⁠ ⁠Accents: emerald #0EA5A4, violet #6D28D9 (Adjust to scene logic; keep harmony and contrast.)

CLEANUP & OUTPUT

•⁠ ⁠No color bleed over line art; no banding or posterization; edges stay sharp.
•⁠ ⁠Do NOT add or remove elements, motion lines, or textures not present.
•⁠ ⁠Do NOT redraw faces or anatomy; respect the artist’s intent
•⁠ ⁠Maintain full resolution and framing; no crops or warps.

NEGATIVE INSTRUCTIONS

No extra characters, no scene changes, no text edits, no lens flares, no heavy bloom, no watercolor, no photo-real gradients, no 3D render look, no blur, no noise. Result: a perfectly colorized, consistent, print-ready superhero strip with classic comic energy and professional finish."

Figura 19: Igual que la tira de la Figura 12

Así que Fran Ramírez llegó al mismo sito, que es.... hacerlo viñeta a viñeta, y el resultado pues similar al que hemos visto ya.

Figura 20: Prueba de una viñeta

No ha salido el coloreado, pero la sensación que tiene es justo la que os voy a contar a continuación : "Se puede controlar".

¿Es demasiado Tarde?

No. Al revés. Lo que pasa es lo contrario: que es demasiado pronto. Nos angustiamos tanto por estar state-of-the-art, que no nos damos cuenta de que el modelo que estamos probando, en este caso Nano Banana, sigue siendo un prototipo en fase de pruebas al que le están metiendo mano en directo. Que falle, que se caiga, que cambie de un día para otro... Es lo normal.

Figura 21: ¿Seguro que es demasiado tarde?

¿Y ahora qué? Pues todo apunta a que estamos delante de una nueva era en edición de imagen. Apuesto a que dentro de nada, bastará con darle a Nano Banana la URL de los episodios de Cálico Electrónico en YouTube, y dejarle que pinte las tiras él solito. En realidad, la duda no es “si pasará”, sino cuándo. Lo que sí sabemos es que en breve Nano Banana estará disponible como Gemini 2.5 Flash Image dentro de las apps de Google, y eso significa más automatización y menos sufrimiento para los que jugamos a estas frikadas.

Bonus Track: Perplexity

Así que, visto lo visto... Dime: ¿tutoriales para qué? De verdad, creo que el único “tutorial” que necesitamos es confiar en nosotros mismos, en los equipos que están trabajando duro ahí afuera, y sí claro, en seguir la pista al state-of-the-art... ¡Pero sin que nos pueda la ansiedad! Os dejo aquí la prueba que hizo Chema Alonso con Peplexity Pro antes de tener Nano Banana, donde le da dos imágenes para que aprenda de una los colores y pinte la otra.

Figura 22: Parece fácil la peticiíon, ¿verdad?

No es fácil. Yo por mi parte, cuando sienta que estoy fallando o que no llego a tiempo, cuando sienta que soy un desastre del delivery... Me acordaré de este verano flotando en la piscina, remando en círculos. Y me aferraré a la idea de que, desde la distancia, la Fuerza Maligna me acompaña.

Figura 23: Pues Perplexity hizo lo que le dio la gana también.

Mientras tanto, ya sabes... ¡Léete unas tiras de Cálico Electrónico a mi salud! Y pásate por el chat público de El lado del mal en MyPublicInbox, que como dice nuestro Gerard Fuguet, “somos un grupo sano sano”. Y además nuestro chat, tiene colorines.

Figura 24: Chat Público de El lado del mal en MyPublicInbox

¡Saludos buenignos!

Autor: María Gómez Prieto

Contactar con María Gómez Prieto

viernes, julio 18, 2025

LightShed versus NightShade & Glaze: La guerra del copyright que envenena imágenes contra la GenAI

Esta semana - después de haberos publicado el artículo de los "Hechizos de Repelencia para hacer Imágenes más creativas con inteligencia Artificial" - había aprovechado a leerme unos artículos académicos muy interesantes que demuestran la guerra que existe entre los creadores de imágenes y los algoritmos de difusión que permiten generar imágenes - y por supuesto canciones y vídeos - a partir de entrenamientos hechos con ellas. Para ello, se usar un Adversarial Attack típico de Machine Learning que envenena las imágenes con Perturbaciones, y lo que se trata es de detectar y eliminar el Posion antes de entrenar el modelo de difusión para que esté listo para utilizar.

Figura 1: LightShed versus NightShade & Glaze: La guerra del

copyright que envenena imágenes contra la GenAI

Los algoritmos de difusión tipo Stable Diffusion necesitan datos para ser entrenados, o para sufrir un proceso de Fine Tuning que los ajuste a nuevos aprendizajes. Y para eso necesitan datos. Datos que los creadores están protegiendo de diferentes formas.

Figura 2: Un modelo de difusión puede clonar un estilo a

partir de las imágenes correctas de entrenamiento

Con un proceso de Fine-Tuning como el que se propone a continuación, nosotros hicimos el modelo que clonaba el estilo del magnífico artista Okuda San Miguel, en el artículo que os dejamos sobre cómo funcionan los modelos de Stable Diffusion (Dall-e & MidJourney).

Figura 3: Proceso de Fine-Tuning para clonar un estilo de un artista

Una de las propuestas es envenenar las imágenes con datos que produzcan un ataque de adversario en el algoritmo, metiendo datos que no son visibles a simple vista, pero que el algoritmo sí va a procesar. El primero de ellos es Glaze, que fue presentado en el año 2023 en el artículo "Glaze: Protecting Artists from Style Mimicry by Text-to-Image Models" y que podéis leer aquí.

Figura 4: Glaze: Protecting Artists from Style Mimicry by Text-to-Image Models

La idea es inyectar datos que aparentemente no se ven a simple vista, pero que lleva al algoritmo hacia modelos totalmente divergentes con el conjunto de imágenes que se utilizó al principio. Es decir, se trata de darle una foto que aparentemente es de un perro, pero que lleva datos para que lo que "vea" el algoritmo sea una cosa diferente, ¿qué te parece un gato?

Figura 5: Proceso de envenenamiento con Glaze y resultado obtenido

Con esto se consigue que las imágenes que acaban siendo generadas por un modelo de difusión, si han sido envenenadas con Glaze, no se parezcan en nada a las fotografías originales utilizadas para entrenar el modelo.

Figura 6: Con las imágenes envenenadas con Glaze, el modelo de difusión

falla a la hora de conseguir clonar el estilo

Una evolución de estos algoritmos de envenenamiento de las imágenes de entrenamiento se presentó el año pasado, llamado NighShade, y lo tenéis en el paper publicado con el título de: "Nightshade: Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models" que podéis leer aquí mismo.

Figura 7: Nightshade: Prompt-Specific Poisoning Attacks

on Text-to-Image Generative Models

Como se puede ver, las imágenes envenenadas con NighShade no tienen cambios perceptibles al ojo humano, y el servicio conginitivo de descripción de imágenes así lo ve, como podéis ver aquí, donde tenemos cuatro imágenes originales y su versión envenenada, así como su descripción.

Figura 8: Imágenes originales y envenenadas con NighShade.

Por cierto, me encanta ese BMW i8 azul. Me encanta.

En este ataque, el proceso es mucho más selectivo y se consigue envenenar una imagen con casi cualquier cosa, como se puede ver en este conjunto de imágenes que al final se pide un perro y acaba apareciendo un gato. No está mal.

Figura 9: Se puede conseguir que al final se pida un perro y salga un gato

Con estos ataques de adversario los creadores tienen cierta protección para sus imágenes, ya que no les van a ser útiles a los modelos de difusión como fuente de entrenamiento, pero como os podéis imaginar, los investigadores iban a trabajar en lo contrario, y así nace LightShed.

Figura 10: LighShed: Defeating Perturbation-based Image Copyright Protections

En este caso, los investigadores han publicado un algoritmo, llamado LightShed, que detecta las perturbaciones que generan los algoritmos de envenenamiento, y hacen un proceso de ingeniería inversa para revertir todos los datos inyectados por Glaze o por NighShade, generando una nueva imagen limpia.

Figura 11: Detección y limpieza con LighShed

Esto hace que cualquier proceso de entrenamiento o Fine-Tunning con un dataset de imágenes primero analice si la imagen tiene veneno (Poison), y si e es así se limpie con LighShed, para luego ya poder pasar a entrenar el modelo de difusión.

Figura 12: LightShed elimina las perturbaciones inyectadas por Glaze o NighShade

Así que, de nuevo hay que seguir con nuevas formas de jugar a este juego del "perro y el gato" que tantas veces hemos visto en el mundo de la ciberseguridad, donde alguien publica un bug y otro un parche, y luego alguien busca un nuevo bug para ese sistema parcheado, y.... y así evoluciona la ciencia. ¿no? Lecturas interesantes sobre el mundo de IA en el que vivimos.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

jueves, marzo 13, 2025

Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)

En los últimos años, los Large Language Models (LLMs) han surgido como una de las herramientas más transformadoras en el campo de la Inteligencia Artificial. Gracias a su capacidad para procesar, generar y comprender el lenguaje humano con gran precisión y satisfacción del usuario, estos modelos están redefiniendo cómo interactuamos con la tecnología.

Figura 1: Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)

Desde la generación de contenido hasta la atención al cliente automatizada, así como la mejora de la accesibilidad y la personalización de servicios, los LLMs están siendo aprovechados de diferentes maneras innovadoras en diversas industrias.

Figura 2: Libro de Machine Learning aplicado a Ciberseguridad de
Carmen Torrano, Fran Ramírez, Paloma Recuero, José Torres y Santiago Hernández

Este rápido crecimiento y la creciente adopción de los LLMs no solo demuestran su utilidad en tareas cotidianas, sino que también subrayan su importancia en el futuro de la Inteligencia Artificial, impulsando avances que permiten crear experiencias más fluidas, inteligentes y humanas.

Transformers

Los LLMs están basados en las arquitecturas de Transformer. La estructura básica está compuesta por un Encoder y un Decoder. El Encoder toma como input una secuencia de texto vectorizado, y el Decoder devuelve como output la secuencia de texto de respuesta. Esta puede ser una respuesta a una pregunta, una traducción de texto o la predicción del texto a continuación.

Figura 2: Arquitectura básica del Transformer

A diferencia de modelos anteriores como las RNNs (Recurrent Neural Networks), no leen el texto de manera secuencial. Los Transformers pueden procesar todo el texto al mismo tiempo y así capturar las relaciones entre las palabras o tokens de manera más eficiente, capturando el contexto completo de una frase. Algunos artículos interesantes si queréis explicaciones más detalladas:

“Attention is all you need”: La investigación que revolucionó la Inteligencia Artificial con los Transformers

¿Qué es un transformer?

¿Cómo funciona un LLM?

Los puntos débiles de los LLMs tradicionales

Los principales problemas de los LLMs actuales son la complejidad computacional, el requerimiento de cantidades masivas de datos para su entrenamiento y su capacidad limitada de razonamiento bi-direccional.

Figura 3: Artículo “Attention Is All You Need”

En él se describen por primera vez los Transformers para LLMs

A pesar de que los LLMs sí que pueden leer el input completo, el output se va produciendo de manera secuencial (autoregresiva). Los LLMs actuales predicen un token a cada paso, basándose en el texto anterior.

Figura 4: Arquitectura de un Transformer

Esto hace que el número de iteraciones necesarias para generar un texto sea proporcional al número de tokens del output deseado. Debido a esta formulación, se podría apuntar que los LLMs autorregresivos pierden cierta capacidad de relación sobre el output que devuelven.

¿Qué son los modelos de difusión?

Los modelos de difusión son un tipo de arquitectura que genera datos (típicamente imágenes, aunque también se aplican para otro tipo de datos como vídeo y audio) empezando con ruido aleatorio que luego se va eliminando gradualmente, hasta obtener un resultado claro. Este proceso inverso de eliminar el ruido paso a paso permite crear imágenes realistas a partir de datos aleatorios o ruidosos.

Figura 5: Proceso de difusión

Algunos modelos basados en difusión que son ampliamente usados y que obtienen excelentes resultados son Sora, Dalle-2, Stable Diffusion, Midjourney o Riffusion, capaces de generar contenido de alta calidad en formato de imagen, vídeo y audio. Puedes leer más sobre este tema en el artículo: ¿Qué son los modelos de difusión? Una guía rápida y completa

¿Cómo funciona un Diffusion LLM (dLLM)?

Un Diffusion LLM es un modelo de lenguaje que combina la técnica de difusión con procesamiento de texto. Funciona generando texto o completando tareas lingüísticas de manera similar a cómo los modelos de difusión generan imágenes. Empieza con ruido (texto aleatorio o blanks) y, paso a paso, lo va refinando hasta obtener un texto coherente y preciso. Los dLLMs son entrenados con grandes cantidades de texto.

El primer paso de entrenamiento es, igual que en un LLM tradicional, aprender las relaciones lingüísticas generales. Esto se consigue haciendo masking (reemplazando un token por un carácter en blanco) al input con una probabilidad definida como parámetro, y pidiendo al modelo que prediga los valores de los tokens que hemos eliminado. El segundo paso, similar al de un LLM tradicional, sería un refinamiento en el que incluiríamos una pregunta y su respectiva respuesta, haciendo masking de tokens de la respuesta únicamente.

Figura 6: Mercurity haciendo código

La mejora más intuitiva de un LLM basado en difusión sería su capacidad de devolver un output sin necesidad de seguir un orden temporal, es decir, que pueden devolver más de un token en cada paso y en la posición que deseen. Esto permite que sean mejores razonando, estructurando y comprendiendo sus propias respuestas.

Son capaces de mirar su respuesta en cada iteración, revisándola y modificándola a cada paso, pudiendo prevenir errores y eliminando instancias de alucinación. Algunos comparan este proceso al pensamiento humano, durante el cual vamos refinando una idea inicial hasta llegar a nuestra formulación final.

Mercury de Inception, el primer dLLM de escala comercial

Inception, una empresa fundada por profesores pioneros en difusión de Standford, Cornell y UCLA, ha publicado recientemente el primer diffusion LLM de escala comercial. Mercury Coder, el primer dLLM que se puede comparar en rendimiento a los LLMs públicos como GPT, Gemini, Claude o DeepSeek, está refinado para la generación de código. Su principal ventaja es la velocidad, siendo de 5 a 10 veces más rápido que los LLM de generación actuales. La necesidad de menos iteraciones para la generación viene mano en mano con la reducción de complejidad computacional y costes.

Figura 7: Mercury comparado con Claude y ChatGPT

Sus resultados en benchmarks de generación de código son mejores en comparación a modelos mini siendo muchísimo menos costoso. Esta velocidad de respuesta, pudiendo ser de hasta 1000 tokens por segundo, sólo ha podido ser obtenida anteriormente usando hardware especializado, aunque Inception lo consigue optimizando el algoritmo de generación. Para leer más sobre el tema visita los siguientes links:

En definitiva, los Diffusion LLMs representan un avance significativo en el procesamiento del lenguaje natural, ofreciendo mayor eficiencia sin sacrificar calidad. Su impacto se reflejará en una adopción más amplia y en el desarrollo de soluciones más accesibles y sostenibles.

Saludos,

Autor: Afina Nurorva, Investigadora Telefónica Innovación Digital

Contactar con Afina Nurova

viernes, diciembre 13, 2024

Grok y las virales imágenes de las celebrities que crea

Twitter - perdón - X, que viene con Grok como MM-LLM, permite hacer imágenes con personas famosas, de una manera muy sencilla, lo que está generando un montón de contenido viral en las redes. Y es que viene hasta con el modo FUN, para hacer cosas "divertidas" con todas ellas.

Figura 1: Grok y las virales imágenes de las celebrities que crea.

(Arturo Pérez-Reverte charlando con David Broncano)

Para usarlo, solo tienes que entrar en Grok, que es una capacidad que por ahora han puesto a cuentas Premium y cuentas no Premium.

Figura 2: Grok en Twitter - perdón - X

Uno de los que está dentro de la base de datos de celebridades en Grok es nuestro querido Iker Casillas, que publicó una foto en la que estaba sentado con Bono de U2, generando todo tipo de comentarios en su Twitter.

Figura 3: Iker Casillas y Bono de U2

Esto en otros MM-LLMs que usan generadores de imágenes con modelos de difusión está controlado. Por ejemplo en Bing obtienes este tipo de mensaje de protección.

Figura 4: Bing Copilot no permite usar famosos en las imágenes

Pero sí en Grok. Y puedes hacer casi cualquier cosa, como esta imagen en la que Iker Casillas y Gerard Piqué están en una escena mucho más entrañable de hermanamiento entre equipos, y con las camisetas cambiadas.

Figura 5: Hermandad entre Iker Casillas y Gerard Piqué

También está Iker Jiménez entre las celebrities, y aquí está en una foto con su queridísimo Diego Armando Maradona, con el que también se puede pedir hacer imágenes.

Figura 6: El día que Iker Jiménez jugó con Maradona...en Twitter

Te puedes pasar el rato haciendo todo tipo de imágenes con personas famosas, lo que no sé si será del agrado de todos, pero es lo que hay. Aquí puedes poner a Iker Casillas a bailar con Iker Jiménez.

Figura 7: Grok ha puesto a Iker Casillas a bailar con Iker Jiménez

O puedes poner a David Broncano charlando con Arturo Pérez-Reverte o compartiendo un rato juntos. Y además estas imágenes, por supuesto, las puedes pedir como con todos los modelos de difusión, en formatos híper realistas.

Figura 8: Arturo Pérez-Reverte charlando con David Broncano

Por suerte, los algoritmos de detección de imágenes generadas con modelos de difusión funcionan con los que utiliza Grok, así que subiendo una de estas imágenes a VerifAI Pro se puede detectar que ha sido generada con un GenAI.

Figura 9: Detección de VerifAI Pro

Cada vez que solicitas una imagen a Grok, éste te hace dos modelos diferentes para que elijas, pero lo hace a una velocidad sorprendente.

Grok, dibuja a Chema Alonso

Como curiosidad, lo que querido probar conmigo mismo, y ha sido bastante curioso, porque sí que conoce quién es "Chema Alonso" en la parte de LLM, y me identifica perfectamente.

Figura 10: ¿Conoces a Chema Alonso Grok?

Pero cuando le digo que me haga una foto sale alguien que me quiere sonar, pero que no soy yo. Supongo que paso mucho tiempo con él, o que al llamarnos igual por el nombre nos ha confundido. Vaya usted a saber.

Figura 11: No soy yo, pero me suena esa persona.

Pues eso, que si aún no has probado Grok, estos días de fiestas que vienen por delante son un buen momento para ello. Que hay que probarlo todo.

¡Saludos Malignos!

Autor: Chema Alonso (Contactar con Chema Alonso)

Un informático en el lado del mal

Buscar artículo

Hacking IA

Quantum Security

Agradecimientos en Tempos

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking de
Aplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

sábado, agosto 30, 2025

Cómo colorear las Tiras de Cálico Electrónico usando Nano Banana: ¡Viva la ConsistencIA!

viernes, julio 18, 2025

LightShed versus NightShade & Glaze: La guerra del copyright que envenena imágenes contra la GenAI

jueves, marzo 13, 2025

Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)

viernes, diciembre 13, 2024

Grok y las virales imágenes de las celebrities que crea

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Reunirse con Chema Alonso

Hacking & Pentesting con Inteligencia Artificial

Chat Público de "El lado del Mal"

Libro Pentesting con FOCA

Singularity Hackers

Etiquetas

ChemaBot

Un informático en el lado del mal

Buscar artículo

Hacking IA

Quantum Security

Agradecimientos en Tempos

IronGate Security

Contactos y RRSS

Libro "Hacking Web Technologies"

Libro de Hacking deAplicaciones Web: SQL Injection

0xWord

Archivo del blog

Blogs y Links

sábado, agosto 30, 2025

Cómo colorear las Tiras de Cálico Electrónico usando Nano Banana: ¡Viva la ConsistencIA!

viernes, julio 18, 2025

LightShed versus NightShade & Glaze: La guerra del copyright que envenena imágenes contra la GenAI

jueves, marzo 13, 2025

Los LLMs del Futuro: Mercury Coder, un Diffusion LLM (dLLM)

viernes, diciembre 13, 2024

Grok y las virales imágenes de las celebrities que crea

Entrada destacada

Hacking IA: Jailbreak, Prompt Injection, Hallucinations & Unalignment. Nuestro nuevo libro en 0xWord

Entradas populares

Reunirse con Chema Alonso

Hacking & Pentesting con Inteligencia Artificial

Chat Público de "El lado del Mal"

Libro Pentesting con FOCA

Singularity Hackers

Etiquetas

ChemaBot

Libro de Hacking de
Aplicaciones Web: SQL Injection