Hechizos de Repelencia para hacer Imágenes más creativas con inteligencia Artificial
Los Diffusion Models para la generación de imágenes, vídeos, e incluso música, han sido atacados muchas veces por la posibilidad de acabar creando imágenes - y todo lo demás -, muy cercanos a los datos de entrenamiento, lo que sería casi como hacer una copia o algo muy parecido. Además de que podrían filtrarse los datos de entrenamiento cuando no se desea eso. Por otro lado, puede suceder que en función de los datos de entrenamiento - y las datos que se van generando con el modelo que también generan un re-entrenamiento -, acaben generándose imágenes, vídeos o canciones muy similares. ¿Cómo mejorar estos modelos para que esto no suceda y siempre trabajen para crear cosas nuevas?
Pues esto es lo que han propuesto los investigadores, añadiendo un mecanismo de Repelencia en el proceso de generación que evita que el modelo acabe generando algo demasiado cercano a los datos de entrenamiento o a algo que ya haya creado. Lo han hecho para imágenes y lo han publicado en el paper de "Shielded Diffusion: Generating Novel and Diverse Images using Sparse Repellency" que tienes aquí.
La idea, como he dicho, es buscar una manera de evitar que se hagan imágenes parecidas, ya que el modelo siempre va a estar sesgado por los datos de entrenamiento, y su dispersión es un proceso lento, a no ser que se meta un "Mecanismo de Repelencia", que haga que las imágenes, durante su proceso de creación, sean repelidas por aquellas ya creadas, forzando una divergencia, y por ende una mayor creatividad en los resultados.
Para hacer eso, lo que proponen en el artículo es un cambio en el proceso de generación de las imágenes que haga que cuando se están creando se detecte la convergencia y se aplique un proceso de repulsión, para forzar la divergencia en las imágenes generadas. En este gráfico se puede ver el proceso completo.
Este proceso, se puede aplicar a cualquier modelo de difusión, entrenado con cualquier conjunto de datos, lo que genera, sea cuál sea el algoritmo y el trabajo que haya generado antes, un conjunto mucho más diverso de generación de imágenes ante cualquier Prompt repetido.
Si miramos en detalle cómo funciona, en este caso con tres perros jugando con una pelota, en el modelo SIN Sparse Repelency, la imagen 3 tiene cierto parecido a la imagen 2, así que el algoritmo, cuando se ha ejecutado CON Sparce Repelency ha forzado una divergencia mayor, logrando que la imagen 3 sea mucho más diversa porque ha sido repelida por la 2.
Y cuando se aplica a un set mucho mayor de pruebas con hechas con el mismo Prompt, se puede ver cómo las imágenes cada vez son repelidas por más y más imágenes, lo que ayuda a que la divergencia sea constante.
Esta línea de investigación, aplicada a vídeo o música, puede traer una variedad de creaciones novedosas que en no demasiado tiempo, podríamos encontrarnos que hay más variedad en imágenes, vídeos o canciones hechas con Inteligencia Artificial Generativa (GenAI) que creadas por el hombre en toda la historia de la humanidad.... veremos.
¡Saludos Malignos!
Nota curiosa: SPELL en inglés significa Hechizo. Me encantan estas cosas de los invesigadores.
Autor: Chema Alonso (Contactar con Chema Alonso)
No hay comentarios:
Publicar un comentario