DALL·E 2 es un sistema CLIP que traduce información textual en imágenes. Es un paradigma de codificador-decodificador, lo que significa que cuando se proporciona texto de entrada, primero se convierte en entrada de máquina, luego lo procesa el sistema y finalmente se alimenta a un decodificador, que convierte los datos codificados en una imagen.
¿Qué es DALL·E 2?
Es la última generación de DALL·E, un modelo de lenguaje generativo que usa frases para generar imágenes completamente nuevas. DALL·E 2 es un modelo enorme, con parámetros de 3.5B, aunque no es tan masivo como GPT-3. Curiosamente, también es más ligero que su precursor (12B). En alineación de descripción y fotorrealismo, los jueces humanos prefieren DALL·E 2 a DALL·E más del 70 % de las veces, a pesar de su mayor tamaño.
DALL.E 2- explicado para principiantes con ejemplos
Específicamente, DALL·E 2 es un modelo de síntesis de imagen condicional de texto jerárquico que combina el aprendizaje profundo para el procesamiento del lenguaje natural con la visión artificial para la generación de imágenes. Su propósito es entrenar dos modelos, y el conjunto de entrenamiento consta de imágenes y descripciones emparejadas. El primero es un anterior, que, cuando se le da un título escrito, puede ser entrenado para generar una incrustación de imagen CLIP. A continuación, tenemos un decodificador que, cuando se le incrusta una imagen CLIP (y, si se proporciona, una leyenda), puede generar una imagen entrenada.
DALLE 2 se entrena con cientos de millones de fotos con subtítulos de la web, y algunas de estas imágenes se eliminan y se vuelven a ponderar para variar lo que aprende el modelo. Obtiene múltiples variaciones de la imagen CLIP incrustaciones y luego usa su descifrador para pasar por cada uno de ellos. Luego crea una amalgama interesante de toda esta información teniendo en cuenta la entrada proporcionada por el usuario.
Ejemplo de DALL·E 2
Hagamos un pequeño juego para entender DALL·E. Dividámoslo en los siguientes tres pasos.
- Imagina arcoíris, nubes y unicornios volando en el cielo azul. Imagina cómo podría resultar el dibujo en tu mente. Los seres humanos son lo más cercano que tenemos a un análogo perfecto de una imagen incrustada, y la imagen que acaba de aparecer en tu cabeza es una imagen perfecta. example de esta. Solo puede adivinar el producto final, pero tiene una buena idea de lo que debe incluirse. El modelo anterior lleva al lector de las palabras de una frase a la escena en su mente.
- Eres libre de empezar a dibujar ahora. Lo que hace unCLIP es convertir la imagen mental que tienes en un boceto real. Ahora puede recrear con precisión otro personaje de la misma descripción, con las mismas características básicas pero con un estilo visual completamente nuevo. DALL·E 2 también podría generar imágenes únicas a partir de una imagen existente incrustada de esta manera.
- Observa el boceto que hiciste. Esto es lo que sucede cuando dibujas la descripción “un unicornio en medio de las nubes, con el arcoíris elevándose en el cielo de fondo”. Ahora, examine la imagen y el texto para determinar cuál ejemplifica mejor al otro (el sol, la casa, el árbol, etc.) y cuál ejemplifica mejor el artículo, el estilo, los colores, etc. Lo que hace CLIP es codificar las características de un texto y una imagen.
Ahora que sabemos qué es DALL-E, pasemos a la siguiente sección y entendamos sus características.
Puntas: Cómo crear imágenes realistas usando el servicio DALL-E-2 AI
Características de DALL·E 2
Las siguientes son las características de DALL·E 2.
- variaciones
- Repintando
- Diferencias de texto
Hablemos de ellos en detalle.
1]Variaciones
DALL·E 2 va más allá de la simple traducción de frase a imagen. OpenAI puede experimentar con el proceso generativo al crear diferentes resultados para un subtítulo dado debido a las incrustaciones sólidas de CLIP. Lo que CLIP “ve” en su “mente” es lo que cree que es crucial desde la entrada (permanece igual en todas las imágenes) y lo que se puede intercambiar (lo que cambia en las imágenes). Cuando sea posible, DALL·E 2 se aferrará tanto a la “información semántica… como a los aspectos estéticos”.
2]Sobrepintar
DALL·E 2 puede alterar las fotos existentes mediante el repintado automático. En el siguiente ejemplo, la imagen de la izquierda es la original, mientras que las fotos del centro y de la derecha tienen un elemento pintado en varias posiciones. DALL·E 2 hace coincidir el elemento adicional con el estilo de la imagen. También actualiza texturas y reflejos para reflejar el nuevo elemento.
Leer : Cosas que puedes hacer con ChatGPT
3]Diferencias de texto
DALL·E 2 transforma imágenes utilizando diffs de texto. DALL·E 2 también tiene capacidades de interpolación avanzadas, lo que permite la modificación de objetos. Uno de los Twitter los usuarios pudieron “Desmordenizar” su iPhone, vaya a twitter.com para comprobar que funciona.
Si te gustan estas características, todo lo que tienes que hacer es ir a openai.com y luego regístrate. Puede crear una nueva cuenta o usar sus cuentas existentes de Microsoft o Google para registrarse. Una vez que hagas esto, obtendrás algunos créditos gratis, si quieres más, tendrás que pagar por ello.
Estas son algunas de las características de DALL·E 2, tiene muchos casos de uso excelentes, sin embargo, siempre es recomendable no confiar demasiado en las herramientas de IA. Al final del día, no son más que herramientas que se utilizan para realizar el trabajo, nunca pueden reemplazar la inteligencia emocional de un hombre.
Las mejores aplicaciones, software y sitios web de Deepfake.