Dall-e, el generador de imágenes basado en IA, ahora esta en Bing.

Actualizado: 16 oct 2023

Probamos la IA con Dall-e de Bing y nos sorprendieron los resultados.

Escape de Tiranosaurio — Escape from Tyranosaurus

¿Qué pasaría si pudieras crear imágenes a partir de textos? Esa es la idea detrás de Dall-e, una inteligencia artificial desarrollada por OpenAI y que ahora está disponible en Bing. Dall-e es capaz de generar imágenes realistas y creativas a partir de frases que le escribas. Por ejemplo, si le pides que dibuje un gato con sombrero, te mostrará varias opciones de cómo podría ser ese gato.

Como funciona DALL-E

Dall-e es una red neuronal artificial que puede generar imágenes a partir de descripciones de texto en lenguaje natural. Su nombre es un homenaje al artista surrealista Salvador Dalí y al personaje de Pixar WALL-E. Dall-e fue desarrollada por OpenAI, una organización dedicada a la investigación en inteligencia artificial.

¿Cómo funciona Dall-e? Dall-e utiliza un modelo llamado VQ-VAE, que significa Vector Quantized Variational Autoencoder. Un autoencoder es un tipo de red neuronal que aprende a comprimir y descomprimir datos, es decir, a reducir la dimensión de los datos sin perder mucha información y luego a reconstruirlos lo más fielmente posible. Un variational autoencoder es una variante que introduce un elemento de aleatoriedad en el proceso, lo que permite generar múltiples salidas posibles a partir de una misma entrada. Un vector quantized variational autoencoder es una versión mejorada que utiliza una técnica llamada cuantización vectorial, que consiste en asignar cada punto de datos a un vector representativo de un conjunto finito, lo que mejora la calidad y la diversidad de las reconstrucciones.

Dall-e utiliza dos VQ-VAEs, uno para el texto y otro para las imágenes. El VQ-VAE del texto recibe una descripción en lenguaje natural y la comprime en un vector de baja dimensión. El VQ-VAE de las imágenes recibe una imagen y la comprime en otro vector de baja dimensión. Luego, estos dos vectores se combinan y se pasan a otro modelo llamado Transformer, que es capaz de aprender relaciones complejas entre los datos. El Transformer genera un nuevo vector que representa la imagen deseada, y este vector se pasa al VQ-VAE de las imágenes para que lo descomprima y produzca la imagen final.

Dall-e puede generar imágenes sorprendentes, creativas y a veces absurdas, como un pingüino con forma de plátano, un brazo con forma de zanahoria o un avión con forma de cocodrilo. Dall-e también puede manipular atributos como el color, el estilo o la perspectiva de las imágenes, o combinar elementos de diferentes dominios, como animales y plantas, o arte y ciencia. Dall-e es una muestra del potencial de la inteligencia artificial para la generación de contenido visual, pero también plantea desafíos éticos y sociales sobre el uso responsable y el impacto de esta tecnología.

Estos son solo algunos ejemplos de lo que Dall-e puede hacer. Nos quedamos impresionados con la capacidad creativa y la calidad de las imágenes que genera esta inteligencia artificial. Creemos que es una herramienta muy útil y entretenida para explorar nuevas ideas y expresar nuestra imaginación. Si quieres probarla tú mismo, solo tienes que entrar en Bing y escribir "Dall-e" en el buscador. ¡Te aseguramos que te vas a sorprender!

Dall-e, el generador de imágenes basado en IA, ahora esta en Bing.

Comments