Hace dos años, al pedirle a un generador de imágenes que dibujase la carta de un restaurante mexicano, la IA devolvía platos inventados como una «enchuita» o un «burrto». La tipografía se desarmaba, las letras se repetían de forma caprichosa y cualquier texto de más de cuatro palabras acababa pareciendo un jeroglífico.
El modelo llega con dos modos de funcionamiento, imágenes de hasta 2K y resuelve por fin el gran talón de Aquiles de la IA generativa: escribir texto legible dentro de una imagen
Hace dos años, al pedirle a un generador de imágenes que dibujase la carta de un restaurante mexicano, la IA devolvía platos inventados como una «enchuita» o un «burrto». La tipografía se desarmaba, las letras se repetían de forma caprichosa y cualquier texto de más de cuatro palabras acababa pareciendo un jeroglífico.
Era el talón de Aquiles de todas las inteligencias artificiales generativas. Y aunque modelos recientes como Nano Banana de Google, han dado pasos en la dirección correcta, parecía un problema difícil de solucionar. ChatGPT Images 2.0, el nuevo modelo que OpenAI ha presentado este martes, lo consigue. La compañía lo describe como un salto cualitativo respecto a GPT-Image-1.5, lanzado apenas cuatro meses, y la novedad más visible es precisamente el manejo del texto. El modelo es capaz de plasmar desde pequeñas etiquetas hasta bloques densos de prosa con una precisión que roza la perfección. Puede incluso generar capturas de pantallas indistinguibles de las capturadas en un ordenador real.
Durante las últimas semanas, el sistema ha estado disponible de forma anónima en la plataforma LM Arena bajo el nombre en clave duct tape. Varios usuarios, sin saber que se trataba del modelo de OpenAI, han destacado su capacidad para reproducir capturas de pantalla realistas, portadas de revista y hasta interfaces de aplicaciones completas.
OpenAI presume de que Images 2.0 puede, de hecho, diseñar revistas enteras, infografías, mapas, secuencias de manga o carteles publicitarios listos para imprimir. La resolución llega hasta 2K, con múltiples relaciones de aspecto, y el sistema acepta generar hasta ocho imágenes a partir de una sola instrucción manteniendo coherencia de personajes y objetos entre ellas. Esta capacidad abre la puerta a que puedan crear incluso storyboards, cómics enteros o campañas gráficas sin tener que encadenar instrucciones una tras otra.
El modelo llega dividido en dos versiones. Instant genera imágenes rápidas, pensadas para usos casuales. Thinking, reservada a los suscriptores de pago, razona antes de dibujar, verifica lo que crea y puede consultar la web para incorporar datos actualizados. Esta última capacidad es la novedad más interesante. Si se le pide una infografía con cifras recientes o el logotipo correcto de una empresa, el modelo puede buscar la información antes de crearlo.
A cambio, es más lento. Generar una tira cómica o una infografía compleja puede tardar varios minutos, según reconoce la propia OpenAI. Está entrenado con datos que llegan hasta diciembre de 2025, así que para cualquier hecho posterior necesita consultar en la web.
Otra mejora relevante es el soporte de alfabetos no latinos. El japonés, el coreano, el hindi, el bengalí y el chino son lenguas con las que los generadores de imagen han tropezado en el pasado por la dificultad de dibujar correctamente sus caracteres. Images 2.0 los maneja con una fluidez mucho mayor, hasta el punto de producir material editorial en esos idiomas sin que el texto se convierta en ruido visual.
Images 2.0 está disponible desde hoy para todos los usuarios de ChatGPT, con el modo Thinking limitado a las cuentas de pago. Los desarrolladores también podrán acceder al modelo a través de la API, con un precio variable en función de la resolución y la calidad solicitada. OpenAI también lo integrará en Codex, su aplicación para desarrolladores en Mac.
Tecnología – Píxel
