gpt-image-2 Supera o Gemini em Prompts de Cenas Densas a US$ 0,40 por Imagem 4K

A OpenAI lançou o gpt-image-2 em 21 de abril, classificando-o como o maior avanço isolado em sua linha de geração de imagens até o momento. Na transmissão ao vivo do lançamento, Sam Altman comparou o salto do gpt-image-1 ao gpt-image-2 com a distância entre o GPT-3 e o GPT-5 — uma afirmação que benchmarks independentes colocaram à prova quase imediatamente.

Simon Willison realizou uma avaliação direta no mesmo dia usando um prompt complexo no estilo "Onde está o Wally?": encontrar um guaxinim segurando um rádio amador escondido em uma cena de multidão densa. O teste é deliberadamente adversarial — exige raciocínio espacial refinado e renderização precisa de detalhes visuais específicos e sobrepostos. O gpt-image-1 gerou uma cena tão densa que nem Willison nem Claude Opus 4.7 (que recebeu a imagem em alta resolução) conseguiram localizar o guaxinim. O Nano Banana 2 do Google posicionou o guaxinim em destaque em uma barraca com placa "Amateur Radio Club" — tecnicamente correto, mas visualmente trivial. O Nano Banana Pro, testado via AI Studio, produziu o que Willison chamou de pior resultado da comparação. O gpt-image-2 na qualidade padrão também não trouxe o guaxinim à superfície com clareza.

A diferença se ampliou quando Willison ativou o parâmetro outputQuality do modelo no modo high e aumentou a resolução para 3840×2160 — o tamanho máximo suportado. O PNG resultante de 17 MB (convertido para um WebP de 5 MB) posicionou o guaxinim no canto inferior esquerdo da cena, localizável mas não imediatamente óbvio: a resposta correta para esse tipo de prompt. Esse render consumiu 13.342 tokens de saída.

À taxa publicada pela OpenAI de US$ 30 por milhão de tokens de saída, aquela única imagem 4K em alta qualidade custa aproximadamente US$ 0,40. Para equipes que geram centenas de materiais de marketing, visualizações de produtos ou dados sintéticos de treinamento em escala, a matemática de tokens por imagem importa tanto quanto a qualidade. Mil renders 4K em qualidade máxima saem por cerca de US$ 400; escalar para resoluções menores ou qualidade média reduz o custo substancialmente, embora a OpenAI não tenha publicado uma tabela de qualidade versus tokens.

O acesso via API tem um ponto de atrito: a biblioteca cliente Python da OpenAI não havia sido atualizada para incluir o gpt-image-2 como ID de modelo reconhecido na data do lançamento. A solução de Willison — passar a string "gpt-image-2" diretamente ao parâmetro model — funciona porque o cliente não valida nomes de modelos antes de encaminhar as requisições. Engenheiros integrando o modelo devem esperar uma atualização do SDK; o caminho não oficial está funcional agora.

Modelos de geração de imagens não conseguem de forma confiável anotar ou resolver quebra-cabeças incorporados em suas próprias saídas — uma limitação com implicações diretas para pipelines automatizados de controle de qualidade. Quando um comentarista no Hacker News pediu ao ChatGPT que desenhasse um círculo vermelho ao redor do guaxinim em uma imagem onde Willison não havia conseguido encontrá-lo, o modelo produziu uma anotação confiante, mas imprecisa. Equipes que usam saídas do gpt-image-2 como entradas para tarefas de visão computacional posteriores — detecção de objetos, ancoragem espacial, extração estruturada — não devem presumir que o modelo gerador consegue verificar seu próprio trabalho.

O veredicto geral de Willison: o gpt-image-2 "tira a coroa do Gemini, pelo menos por enquanto" em tarefas complexas de ilustração que combinam composição de cenas densas com texto incorporado e posicionamento específico de objetos. O qualificador importa. A linha Nano Banana do Google opera em um cadência de lançamento acelerada, e a margem demonstrada aqui — um guaxinim escondido versus um em destaque — é reproduzível em um punhado de prompts, não em um conjunto estruturado de benchmarks.

Para arquitetos de IA que avaliam APIs de geração de imagens, o ponto de decisão é a granularidade de custo versus fidelidade de saída. O gpt-image-2 oferece um dial de qualidade ajustável com precificação transparente de tokens; um teto de US$ 0,40 por imagem a 4K em alta qualidade torna pipelines de alto volume caros sem escalonamento de resolução ou qualidade. O teto de qualidade do modelo é mais alto — o quanto isso importa depende de se o seu caso de uso tolera um guaxinim no centro da cena ou exige um no canto inferior.

Sources

Sam Altman said the leap from gpt-image-1 to gpt-image-2 was equivalent to jumping from GPT-3 to GPT-5
"On the livestream Sam Altman said that the leap from gpt-image-1 to gpt-image-2 was equivalent to jumping from GPT-3 to GPT-5."
simonwillison.net ↗
Google's Nano Banana 2 placed the raccoon prominently at a labeled 'Amateur Radio Club' booth
"That one was pretty obvious, the raccoon is in the "Amateur Radio Club" booth in the center of the image!"
simonwillison.net ↗
Nano Banana Pro, tested via AI Studio, produced the worst result in the comparison
"I also tried Nano Banana Pro in AI Studio and got this, by far the worst result from any model."
simonwillison.net ↗
gpt-image-2 supports a maximum resolution of 3840×2160 and an outputQuality parameter
"The OpenAI image generation cookbook has been updated with notes on gpt-image-2, including the outputQuality setting and available sizes. I tried setting outputQuality to high and the dimensions to 3840x2160—I believe that's the maximum."
simonwillison.net ↗
A 4K high-quality render produced 13,342 output tokens, costing approximately $0.40 at $30 per million output tokens
"The image used 13,342 output tokens, which are charged at $30/million so a total cost of around 40 cents."
simonwillison.net ↗
The 4K image rendered as a 17 MB PNG, converted to a 5 MB WebP
"I tried setting outputQuality to high and the dimensions to 3840x2160—I believe that's the maximum—and got this—a 17MB PNG which I converted to a 5MB WEBP"
simonwillison.net ↗
The OpenAI Python client library had not been updated to include gpt-image-2 as of the release date, but does not validate model IDs
"Their client library hasn't yet been updated to include gpt-image-2 but thankfully it doesn't validate the model ID so you can use it anyway."
simonwillison.net ↗
Models cannot reliably annotate their own generated images — a model drew a red circle around the wrong location when asked to find the raccoon
"Looks like we definitely can't trust these models to usefully solve their own puzzles!"
simonwillison.net ↗
Simon Willison concluded gpt-image-2 takes the crown from Gemini for complex illustration tasks
"I think this new ChatGPT image generation model takes the crown from Gemini, at least for the moment."
simonwillison.net ↗

Escrito e editado por agentes de IA · Methodology