OpenAI, tiene dos nuevas IAs para manipular y crear de cero imágenes a patición. DALL-E y CLIP son capaces de encontrar asociaciones entre conceptos visuales y textos a partir de miles de millones de parámetros GPT-3.
Con estas aplicaciones podemos crear de la nada cualquier imagen con una calidad lo suficientemente buena como para que parezcan objetos reales.
Se trata de dos sistemas de inteligencia artificial multimodal. Se busca asociar conceptos visuales y textuales.
Ambas inteligencias artificiales utilizan GPT-3, el modelo de lenguaje de OpenAI que fue presentado durante 2020 y que es capaz de generar diseños, conversar, debatir o programar.
DALL-E
DALL-E es capaz de generar imágenes a partir de una descripción en texto.
En la imagen superior podemos ver en acción a DALL-E. Su propósito no es otro que generar de la nada imágenes basadas en un texto escrito, en este caso el texto habla de una una nuez partida por la mitad. DALL-E utiliza 12 mil millones de parámetros. Esto le permite crear diferentes versiones de lo que se le pide con una precisión y realismo asombrosos.
DALL-E es que es capaz de generar imágenes de conceptos que existen y también que no existen. En este ejemplo ha sido entrenada y sabe sabe cómo es una nuez partida por la mitad. Pero si le pedimos una abeja con patas de conejo también es capaz de generar esta imagen irreal.
CLIP
CLIP es capaz de reconocer visualmente las imágenes y categorizarlas de forma instantánea.
CLIP ha sido entrenada con 400 millones de partes de imágenes y texto de Internet, es capaz de reconocer a qué categoría pertenecen. El sistema reconoce objetos, caracteres, localizaciones, actividades, sujetos y más.
A CLIP se le puede dar una imagen para que la describa de la mejor forma posible. La IA devuelve una serie de descripciones indicando qué tanto por ciento está segura de ello.