El nuevo generador de imágenes de OpenAI aprovecha los datos web

OpenAI lanza ChatGPT Images 2.0 con capacidades de navegación web y funciones de pensamiento avanzado para una generación de imágenes más sofisticada.
OpenAI ha presentado una actualización significativa de su tecnología de generación de imágenes con inteligencia artificial, presentando ChatGPT Images 2.0 con capacidades innovadoras que cambian fundamentalmente la forma en que la plataforma crea contenido visual. La nueva iteración presenta capacidades de pensamiento integradas que permiten al sistema buscar en la web en tiempo real, recopilando información relevante para informar y mejorar el proceso de creación de imágenes. Este avance representa un gran paso adelante en los esfuerzos de la empresa para hacer que las imágenes generadas por IA sean más contextualmente precisas, visualmente sofisticadas y respondan a las especificaciones del usuario.
El generador de imágenes mejorado ahora demuestra capacidades significativamente mejoradas en múltiples dimensiones que los usuarios han solicitado. Según el anuncio oficial de OpenAI, el sistema actualizado destaca por generar imágenes más sofisticadas y detalladas, al tiempo que mantiene capacidades superiores de seguimiento de instrucciones. La plataforma ahora puede preservar mejor los detalles específicos que los usuarios enfatizan en sus solicitudes, asegurando que las solicitudes matizadas se reflejen con precisión en el resultado final. Además, la nueva versión muestra un rendimiento notablemente mejorado en la generación de elementos de texto dentro de imágenes, solucionando una limitación previamente desafiante que los usuarios encontraban con frecuencia.
En el centro de esta actualización se encuentra el modelo GPT Image 2 recientemente desarrollado por OpenAI, que incorpora mecanismos de razonamiento avanzados que le permiten abordar la generación de imágenes con mayor profundidad y comprensión. Las capacidades de pensamiento integradas en este modelo permiten un enfoque más deliberado y en capas para interpretar las solicitudes de los usuarios y traducirlas en representaciones visuales. Esto representa un cambio fundamental con respecto a las versiones anteriores, que se basaban principalmente en la coincidencia de patrones y correlaciones estadísticas, hacia un sistema más sofisticado que puede razonar sobre el contexto, la composición y los principios visuales antes de generar imágenes.
Fuente: The Verge


