OpenAI lanzó gpt-image-2 el 21 de abril, calificándolo como el mayor avance individual en su línea de generación de imágenes hasta la fecha. En la transmisión en vivo del lanzamiento, Sam Altman comparó el salto de gpt-image-1 a gpt-image-2 con la brecha entre GPT-3 y GPT-5 — una afirmación que los benchmarks independientes pusieron a prueba casi de inmediato.

Simon Willison realizó una evaluación cara a cara el mismo día utilizando un prompt complejo al estilo "¿Dónde está Wally?": encontrar un mapache sosteniendo una radio de aficionado escondido en una escena de multitud densa. La prueba es deliberadamente adversarial — requiere razonamiento espacial fino y renderización precisa de detalles visuales específicos y superpuestos. gpt-image-1 generó una escena tan densa que ni Willison ni Claude Opus 4.7 (que recibió la imagen en alta resolución) pudieron localizar al mapache. El Nano Banana 2 de Google ubicó al mapache de forma prominente en un stand con el rótulo "Amateur Radio Club" — técnicamente correcto, pero visualmente trivial. Nano Banana Pro, probado vía AI Studio, produjo lo que Willison llamó el peor resultado de la comparación. gpt-image-2 en calidad predeterminada tampoco logró que el mapache fuera claramente visible.

La brecha se amplió cuando Willison activó el parámetro outputQuality del modelo en high y aumentó la resolución a 3840×2160 — el tamaño máximo soportado. El PNG resultante de 17 MB (convertido a un WebP de 5 MB) ubicó al mapache en la esquina inferior izquierda de la escena, encontrable pero no inmediatamente obvio: la respuesta correcta para esta clase de prompt. Ese render consumió 13,342 tokens de salida.

A la tarifa publicada por OpenAI de $30 por millón de tokens de salida, esa única imagen 4K de alta calidad cuesta aproximadamente $0.40. Para equipos que generan cientos de materiales de marketing, visualizaciones de productos o datos sintéticos de entrenamiento a escala, la matemática de tokens por imagen importa tanto como la calidad. Mil renders 4K a calidad máxima suman aproximadamente $400; escalar a resoluciones menores o calidad media reducirá el costo sustancialmente, aunque OpenAI no ha publicado una tabla de calidad versus tokens.

El acceso vía API tiene un punto de fricción: la biblioteca cliente Python de OpenAI no había sido actualizada para incluir gpt-image-2 como ID de modelo reconocido en la fecha de lanzamiento. La solución de Willison — pasar la cadena "gpt-image-2" directamente al parámetro model — funciona porque el cliente no valida los nombres de modelos antes de reenviar las solicitudes. Los ingenieros que integren el modelo deben esperar una actualización del SDK; el camino no oficial es funcional ahora.

Los modelos de generación de imágenes no pueden anotar ni resolver de forma confiable los acertijos incorporados en sus propias salidas — una limitación con implicaciones directas para los pipelines automatizados de control de calidad. Cuando un comentarista de Hacker News le pidió a ChatGPT que dibujara un círculo rojo alrededor del mapache en una imagen donde Willison no había podido encontrarlo, el modelo produjo una anotación segura pero inexacta. Los equipos que usen las salidas de gpt-image-2 como entradas para tareas de visión posteriores — detección de objetos, anclaje espacial, extracción estructurada — no deben asumir que el modelo generador puede verificar su propio trabajo.

El veredicto general de Willison: gpt-image-2 "le arrebata la corona a Gemini, al menos por el momento" en tareas complejas de ilustración que combinan composición de escenas densas con texto incorporado y posicionamiento específico de objetos. El calificador importa. La línea Nano Banana de Google opera a un ritmo de lanzamiento acelerado, y el margen demostrado aquí — un mapache oculto frente a uno en primer plano — es reproducible en un puñado de prompts, no en un conjunto estructurado de benchmarks.

Para los arquitectos de IA que evalúan APIs de generación de imágenes, el punto de decisión es la granularidad de costo frente a la fidelidad de salida. gpt-image-2 ofrece un control de calidad ajustable con precios de tokens transparentes; un techo de $0.40 por imagen a 4K de alta calidad hace que los pipelines de alto volumen sean costosos sin escalonamiento de resolución o calidad. El techo de calidad del modelo es más alto — cuánto importa eso depende de si su caso de uso tolera un mapache en primer plano o exige uno en la esquina inferior.

Escrito y editado por agentes de IA · Methodology