La inteligencia artificial Dall-E convierte en imagen cualquier idea que puedas expresar en una frase

21 de abril de 2022

Generar imágenes fotorrealistas a partir de conceptos expresados de forma natural como “un astronauta montado a caballo” o “un plato de sopa que parezca un monstruo”. Y cualquier otra cosa que puedas imaginar, por surrealista que sea.

Es lo que hace Dall-E 2, la última evolución del sistema de inteligencia artificial (IA) anunciado por la compañía de investigación y desarrollo OpenAI, que tiene a Elon Musk entre sus fundadores.

Es verdad que ya antes hemos visto apps y sistemas de AI similares, que generan imágenes a partir de un texto o palabra clave. Pero la última demo de Dall-E genera unas imágenes que no dejan indiferente a nadie por su calidad y realismo, y también por su estilo onírico y surrealista.

El nombre Dall-E combina los nombres del personaje de Pixar Wall-E y de Salvador Dalí, maestro del surrealismo.

La herramienta está disponible para el público mediante requiere registro, aunque también se pueden ver libremente sus resultados en la web de OpenAI y en su cuenta de Instagram.

Algunas de las imágenes generadas por el modelo de IA Dall-E, de OpenAI

La compañía ha compartido ejemplos de las imágenes que produce Dall-E cuando se combinan en una frase breve conceptos, características y estilos.

De este modo la frase “un plato de sopa que parece un monstruo hecho con plastilina” daría como resultado esta imagen y sus variantes

Imagen de un cuenco de sopa que parece un monstruo hecho con plastilima

Imagen generada por la IA Dall-E cuando interpreta la frase "un plato de sopa que parece un monstruo hecho con plastilina”. Imagen: OpenAI

Mientras que “un plato de sopa que parece un monstruo tejido con lana” resultaría en esta otra imagen —y sus variantes.

Imagen de un cuenco de sopa que parece un monstruo tejido con lana. Imagen: OpenAI

Imagen generada por la inteligencia artificial Dall-E en respuesta a la frase “un plato de sopa que parece un monstruo tejido con lana”. Imagen: OpenAI

Se pueden probar diferentes combinaciones en la web de OpenAI, y en este video se pueden ver otros ejemplos y se explica un poco más sobre qué es y cómo funciona Dall-E.

Cómo funciona Dall-E

La red neuronal de Dall-E “ha aprendido la relación entre las imágenes y los textos que las describen”, explican los investigadores.

“No solo entiende objetos individuales como un caballo o un astronauta”, dicen, sino que también ha aprendido “cómo los objetos y las acciones se relacionan entre sí”. De este modo es como Dall-E ‘sabe’ cómo debe representar de forma realista un astronauta montando a caballo.

Para generar la imagen Dall-E utiliza un proceso llamado “difusión” que comienza reorganizando patrones de puntos aleatorios que va modificando hasta obtener el resultado deseado y producir “imágenes que no han existido antes”.

Dall-E genera varias versiones de la imagen que genera por cada idea que recibe. También se puede definir el estilo para que el resultado sea una imagen dibujada a lápiz, por ejemplo. Imagen: OpenAI

Dall-E es un ejemplo “de cómo la imaginación humana y los sistemas pueden trabajar juntos para crear cosas nuevas, amplificando nuestro potencial creativo”

Dall-E aspira a ser un ejemplo de IA “útil y segura”

Para los investigadores el desarrollo de Dall-E cumple tres premisas esenciales para el desarrollo de una IA “útil y segura”:

Permite que el público se exprese de un modo que hasta ahora no era posible.
Revela si el sistema de IA “entiende” lo que se le pide por escrito, o si por el contrario solo repite lo aprendido.
Ayuda a entender de qué manera ve y entiende el mundo el sistema de IA.

Respecto a la primera versión de Dall-E, anunciada hace algo más de un año, Dall-E 2 añade nuevas funciones, además de incrementar la comprensión y la calidad y complejidad de las imágenes y la velocidad a la que se generan.

Puede partir de una imagen ya existente y crear variaciones complejas, como por ejemplo cambiar el ángulo de un retrato y su estilo
Permite editar una imagen existente para reemplazar un objeto por otro, para añadir un objeto que no existe en la imagen original teniendo en cuenta el estilo, las sombras, reflejos y texturas. Puede incluso, cambiar el significado de la imagen.

Pero las limitaciones en el uso de Dall-E llevan al sesgo

Además de limitar su disponibilidad —la herramienta es accesible para un grupo reducido de público, principalmente investigadores de IA y algunos artistas sin fines comerciales— OpenIA ha implementado algunas restricciones en el uso de su nuevo modelo de inteligencia artificial.

Estas restricciones intentan evitar un uso dañino u ofensivo de la herramienta impidiendo que genere imágenes violentas, sexuales o de contenido político. De igual modo impide generar imágenes que incluyan a personas conocidas o reconocibles.

Evitar el sesgo y los estereotipos es uno de los grandes retos a los que se enfrenta la inteligencia artificial

Estas limitaciones pueden sin embargo fomentar sesgos en modelos de IA como Dall-E. Los investigadores de OpenIA admiten consecuencias no previstas al aplicar esos filtros. Descubrieron que eliminar el contenido sexual para evitar que Dall-E produzca imágenes para adultos provoca que, en general, Dall-E genere menos imágenes de mujeres.

“Esto no es bueno —señalan desde la publicación Vox— porque supone invisibilizar a las mujeres.” Pero este no es un problema exclusivo de Dall-E: evitar el sesgo y la persistencia de estereotipos suponen hoy uno de los grandes retos “para toda la comunidad de desarrolladores de IA.”