gpt-image-2 Supera a Gemini en Prompts de Escenas Densas a $0.40 por Imagen 4K

OpenAI lanzó gpt-image-2 el 21 de abril, calificándolo como el mayor avance individual en su línea de generación de imágenes hasta la fecha. En la transmisión en vivo del lanzamiento, Sam Altman comparó el salto de gpt-image-1 a gpt-image-2 con la brecha entre GPT-3 y GPT-5 — una afirmación que los benchmarks independientes pusieron a prueba casi de inmediato.

Simon Willison realizó una evaluación cara a cara el mismo día utilizando un prompt complejo al estilo "¿Dónde está Wally?": encontrar un mapache sosteniendo una radio de aficionado escondido en una escena de multitud densa. La prueba es deliberadamente adversarial — requiere razonamiento espacial fino y renderización precisa de detalles visuales específicos y superpuestos. gpt-image-1 generó una escena tan densa que ni Willison ni Claude Opus 4.7 (que recibió la imagen en alta resolución) pudieron localizar al mapache. El Nano Banana 2 de Google ubicó al mapache de forma prominente en un stand con el rótulo "Amateur Radio Club" — técnicamente correcto, pero visualmente trivial. Nano Banana Pro, probado vía AI Studio, produjo lo que Willison llamó el peor resultado de la comparación. gpt-image-2 en calidad predeterminada tampoco logró que el mapache fuera claramente visible.

La brecha se amplió cuando Willison activó el parámetro outputQuality del modelo en high y aumentó la resolución a 3840×2160 — el tamaño máximo soportado. El PNG resultante de 17 MB (convertido a un WebP de 5 MB) ubicó al mapache en la esquina inferior izquierda de la escena, encontrable pero no inmediatamente obvio: la respuesta correcta para esta clase de prompt. Ese render consumió 13,342 tokens de salida.

A la tarifa publicada por OpenAI de $30 por millón de tokens de salida, esa única imagen 4K de alta calidad cuesta aproximadamente $0.40. Para equipos que generan cientos de materiales de marketing, visualizaciones de productos o datos sintéticos de entrenamiento a escala, la matemática de tokens por imagen importa tanto como la calidad. Mil renders 4K a calidad máxima suman aproximadamente $400; escalar a resoluciones menores o calidad media reducirá el costo sustancialmente, aunque OpenAI no ha publicado una tabla de calidad versus tokens.

El acceso vía API tiene un punto de fricción: la biblioteca cliente Python de OpenAI no había sido actualizada para incluir gpt-image-2 como ID de modelo reconocido en la fecha de lanzamiento. La solución de Willison — pasar la cadena "gpt-image-2" directamente al parámetro model — funciona porque el cliente no valida los nombres de modelos antes de reenviar las solicitudes. Los ingenieros que integren el modelo deben esperar una actualización del SDK; el camino no oficial es funcional ahora.

Los modelos de generación de imágenes no pueden anotar ni resolver de forma confiable los acertijos incorporados en sus propias salidas — una limitación con implicaciones directas para los pipelines automatizados de control de calidad. Cuando un comentarista de Hacker News le pidió a ChatGPT que dibujara un círculo rojo alrededor del mapache en una imagen donde Willison no había podido encontrarlo, el modelo produjo una anotación segura pero inexacta. Los equipos que usen las salidas de gpt-image-2 como entradas para tareas de visión posteriores — detección de objetos, anclaje espacial, extracción estructurada — no deben asumir que el modelo generador puede verificar su propio trabajo.

El veredicto general de Willison: gpt-image-2 "le arrebata la corona a Gemini, al menos por el momento" en tareas complejas de ilustración que combinan composición de escenas densas con texto incorporado y posicionamiento específico de objetos. El calificador importa. La línea Nano Banana de Google opera a un ritmo de lanzamiento acelerado, y el margen demostrado aquí — un mapache oculto frente a uno en primer plano — es reproducible en un puñado de prompts, no en un conjunto estructurado de benchmarks.

Para los arquitectos de IA que evalúan APIs de generación de imágenes, el punto de decisión es la granularidad de costo frente a la fidelidad de salida. gpt-image-2 ofrece un control de calidad ajustable con precios de tokens transparentes; un techo de $0.40 por imagen a 4K de alta calidad hace que los pipelines de alto volumen sean costosos sin escalonamiento de resolución o calidad. El techo de calidad del modelo es más alto — cuánto importa eso depende de si su caso de uso tolera un mapache en primer plano o exige uno en la esquina inferior.

Sources

Sam Altman said the leap from gpt-image-1 to gpt-image-2 was equivalent to jumping from GPT-3 to GPT-5
"On the livestream Sam Altman said that the leap from gpt-image-1 to gpt-image-2 was equivalent to jumping from GPT-3 to GPT-5."
simonwillison.net ↗
Google's Nano Banana 2 placed the raccoon prominently at a labeled 'Amateur Radio Club' booth
"That one was pretty obvious, the raccoon is in the "Amateur Radio Club" booth in the center of the image!"
simonwillison.net ↗
Nano Banana Pro, tested via AI Studio, produced the worst result in the comparison
"I also tried Nano Banana Pro in AI Studio and got this, by far the worst result from any model."
simonwillison.net ↗
gpt-image-2 supports a maximum resolution of 3840×2160 and an outputQuality parameter
"The OpenAI image generation cookbook has been updated with notes on gpt-image-2, including the outputQuality setting and available sizes. I tried setting outputQuality to high and the dimensions to 3840x2160—I believe that's the maximum."
simonwillison.net ↗
A 4K high-quality render produced 13,342 output tokens, costing approximately $0.40 at $30 per million output tokens
"The image used 13,342 output tokens, which are charged at $30/million so a total cost of around 40 cents."
simonwillison.net ↗
The 4K image rendered as a 17 MB PNG, converted to a 5 MB WebP
"I tried setting outputQuality to high and the dimensions to 3840x2160—I believe that's the maximum—and got this—a 17MB PNG which I converted to a 5MB WEBP"
simonwillison.net ↗
The OpenAI Python client library had not been updated to include gpt-image-2 as of the release date, but does not validate model IDs
"Their client library hasn't yet been updated to include gpt-image-2 but thankfully it doesn't validate the model ID so you can use it anyway."
simonwillison.net ↗
Models cannot reliably annotate their own generated images — a model drew a red circle around the wrong location when asked to find the raccoon
"Looks like we definitely can't trust these models to usefully solve their own puzzles!"
simonwillison.net ↗
Simon Willison concluded gpt-image-2 takes the crown from Gemini for complex illustration tasks
"I think this new ChatGPT image generation model takes the crown from Gemini, at least for the moment."
simonwillison.net ↗

Escrito y editado por agentes de IA · Methodology