Adiós DALL-E: OpenAI trae generación nativa de imágenes a GPT-4o y los resultados asombran

Redacción IT NOW
27 mar 2025
3 min de lectura

La nueva tecnología trae sustanciales mejoras en crear texto embebido, dar coherencia entre iteraciones y lograr un mayor control en la composición visual.

https://www.youtube.com/watch?v=E9RN8jX--uc

OpenAI ha dado un paso adelante en la evolución de la generación de imágenes con el lanzamiento de GPT-4o, que reemplaza a DALL·E como el generador de imágenes nativo de ChatGPT. Esta nueva versión se destaca por su capacidad multimodal, permitiendo una mayor coherencia en personajes, integración de capas transparentes y una notable mejora en la inclusión de texto dentro de las imágenes, superando las limitaciones previas de los modelos de lenguaje visual (VLM).

Hasta ahora, los modelos generativos hasta ahora se habían centrado en la creación de imágenes artísticas o abstractas, dejando de lado la utilidad práctica de elementos visuales como logotipos, diagramas y gráficos informativos. GPT-4o rompe con esta barrera, proporcionando un enfoque más preciso y funcional en la generación de imágenes.

El nuevo modelo ha sido entrenado con la distribución conjunta de imágenes y texto en internet, lo que le ha permitido aprender no solo la relación entre ambos elementos, sino también cómo las imágenes interactúan entre sí. Este entrenamiento, combinado con un postprocesamiento avanzado, ha resultado en un modelo con una fluidez visual sorprendente y una mayor capacidad de contextualización.

Innovaciones clave en la generación de imágenes con GPT-4o

Renderización precisa de texto
- La capacidad de incrustar palabras y frases dentro de las imágenes permite una mejor comunicación visual, convirtiendo la generación de imágenes en una herramienta estratégica para la creación de contenido educativo, publicitario y empresarial.
Generación iterativa y coherente
- A diferencia de modelos anteriores, GPT-4o puede generar imágenes consistentes a lo largo de múltiples interacciones en una conversación, permitiendo refinamientos progresivos. Esta función es ideal para diseñadores y creadores de contenido que buscan perfeccionar visuales a través de iteraciones sucesivas.
Mayor capacidad de seguimiento de instrucciones
- Mientras que otros sistemas luchan con la representación de múltiples objetos en una escena (limitándose a unos 5-8 elementos), GPT-4o puede manejar hasta 20 objetos distintos, garantizando una composición visual más precisa y detallada.
Aprendizaje en contexto con imágenes subidas por el usuario
- Ahora, los usuarios pueden proporcionar imágenes de referencia y GPT-4o las analizará para integrarlas en su contexto y generar visuales personalizados.
Conexión entre conocimiento textual y visual
- La capacidad de generar imágenes basadas en un entendimiento más profundo del mundo real le permite a GPT-4o mejorar su precisión y realismo en la composición visual.

El proceso de creación de imágenes es tan simple como describir lo que se necesita en una conversación con GPT-4o, incluyendo detalles como proporciones, paleta de colores y fondos transparentes. No obstante, debido a la mayor complejidad y nivel de detalle de las imágenes, el tiempo de procesamiento puede extenderse hasta un minuto.

OpenAI ha implementado controles para garantizar el uso seguro de esta tecnología. Cada imagen generada incluye metadatos C2PA para identificar su origen, brindando transparencia y facilitando su verificación. Además, la compañía ha desarrollado herramientas de búsqueda interna para detectar contenido generado por su modelo.

En términos de moderación, GPT-4o bloquea la generación de contenido que infrinja políticas de seguridad, como material abusivo o deepfakes explícitos. Asimismo, al tratarse de imágenes con personas reales, se han reforzado las restricciones para garantizar un uso ético y responsable.

La generación de imágenes con GPT-4o ya está disponible para usuarios de ChatGPT en sus versiones Plus, Pro y Team, con un lanzamiento próximo para clientes Enterprise y Edu. También se ha integrado en Sora, y en las próximas semanas se habilitará acceso mediante API para desarrolladores.

Adiós DALL-E: OpenAI trae generación nativa de imágenes a GPT-4o y los resultados asombran

La nueva tecnología trae sustanciales mejoras en crear texto embebido, dar coherencia entre iteraciones y lograr un mayor control en la composición visual.

Innovaciones clave en la generación de imágenes con GPT-4o

Le puede interesar: Google presentó Gemini 2.5, su LLM más inteligente

Entradas relacionadas

Comentarios

24 / 7 Actualizaciones en nuestras Redes Sociales