GPT-5.5 Pro Conclui Simulação 3D 39% Mais Rápido e Escreve Artigo de Nível de Doutorado em Quatro Prompts

O GPT-5.5 Pro da OpenAI concluiu uma simulação procedural 3D em 20 minutos — uma redução de 39% em relação aos 33 minutos que o GPT-5.4 Pro exigiu — e converteu uma década de dados brutos de pesquisa em um artigo acadêmico com revisão bibliográfica usando quatro prompts, segundo uma análise publicada em 23 de abril pelo professor da Wharton Ethan Mollick, que detinha acesso antecipado verificado.

Para o benchmark de codificação, Mollick desafiou todos os modelos — do primeiro modelo de raciocínio da OpenAI, o o3, lançado aproximadamente um ano atrás, ao atual modelo de pesos abertos mais avançado, Kimi K2.6, e ao novo GPT-5.5 Pro — com um único prompt: "construa uma simulação 3D gerada proceduralmente mostrando a evolução de uma cidade portuária de 3000 a.C. a 3000 d.C., deve parecer bonita e me permitir ter algum controle sobre ela." O GPT-5.5 Pro foi o único modelo que simulou uma cidade em evolução. Os concorrentes geraram substituições de novos edifícios ao longo do tempo, em vez de uma evolução genuína da cidade.

O teste do artigo de pesquisa cobriu um terreno mais amplo. Mollick alimentou o Codex — aplicativo desktop da OpenAI alimentado pelo GPT-5.5 — com centenas de arquivos de pesquisa de crowdfunding anonimizados nos formatos STATA, CSV, XLS e Word que havia acumulado ao longo de uma década e nunca escrevera. Ele o instruiu a organizar os dados, gerar uma hipótese inédita, testá-la com métodos estatísticos sofisticados e escrever um artigo acadêmico completo incluindo uma revisão bibliográfica. Após quatro prompts no total — uma rodada em que o GPT-5.5 Pro revisou o rascunho e enviou notas de volta ao Codex — o resultado estava completo. As citações da revisão bibliográfica eram reais. As estatísticas eram reais. Mollick julgou o resultado comparável a um projeto sólido de doutorado de segundo ano, observando que "ficaria muito satisfeito se este artigo fosse o resultado de um projeto de doutorado de 2º ano."

Para arquitetos de IA empresarial, os dois testes juntos traçam um limite de capacidade que importa para decisões de construir versus comprar. O benchmark de codificação confirma que o GPT-5.5 Pro cruzou um limiar em que não apenas gera código plausível, mas raciocina sobre comportamento emergente de sistemas — modelando como uma cidade evolui em vez de trocar ativos estáticos. O teste do pipeline de pesquisa demonstra que o trabalho de conhecimento autônomo em múltiplas etapas — triagem de dados, formação de hipóteses, síntese bibliográfica, modelagem estatística — é agora um fluxo de trabalho de quatro prompts. Organizações com grandes repositórios internos de dados não estruturados devem reavaliar o que significa produtividade de analistas.

Mollick enquadra esses ganhos dentro da pilha de três camadas da OpenAI: modelos (GPT-5.5 Pro no topo), aplicativos (ChatGPT web, Codex desktop) e harnesses (integrações de ferramentas incluindo um novo modelo de imagem capaz de renderizar texto de alta fidelidade para apresentações e mockups). Implantações empresariais que tratam essas camadas como independentes subestimarão os ganhos compostos — o teste do artigo exigiu um harness Codex orquestrando o GPT-5.5 Pro, não uma chamada bruta de API.

Os ressalvas que Mollick aponta são reais. Ele explicitamente chama a fronteira de "irregular": o GPT-5.5 Pro produziu um artigo estatisticamente competente, mas escolheu uma hipótese que Mollick — especialista em pesquisa de crowdfunding — considerou desinteressante, e o modelo não resolveu as preocupações padrão sobre causalidade apesar de usar métodos estatísticos sofisticados para abordá-las. O julgamento do modelo sobre o que vale a pena investigar ainda não corresponde ao de um pesquisador sênior. A simulação 3D da cidade foi a melhor do campo, mas foi medida contra modelos que falharam completamente em simular a evolução — uma barra baixa para casos de uso empresarial que exigem precisão em vez de espetáculo.

O GPT-5.5 Pro está atualmente acessível apenas pelo site do ChatGPT; nenhum cronograma de API foi divulgado. O Codex está disponível como aplicativo desktop. Para CTOs que avaliam a seleção de modelos para tarefas complexas de raciocínio, o veredicto de Mollick é inequívoco: o GPT-5.5 Pro é o melhor modelo disponível para problemas difíceis hoje. Se o lançamento da API da OpenAI acompanha sua curva de capacidades é a pergunta que os compradores empresariais devem pressionar.

Sources

GPT-5.4 Pro took 33 minutes to complete the 3D harbor town simulation; GPT-5.5 Pro took 20 minutes
"GPT-5.4 Pro took 33 minutes to complete the task, GPT-5.5 Pro took 20."
open.substack.com ↗
Only GPT-5.5 Pro actually modeled an evolving town; rival models generated new building replacements over time rather than genuine town evolution
"only GPT-5.5 Pro actually modelled an evolving town, rather than just generating new building replacements over time."
open.substack.com ↗
Mollick compared rival models including o3 (released approximately one year ago) and Kimi K2.6 (current best open-weights model)
"I gave a coding challenge to AIs ranging from OpenAI's first reasoning model, o3 (released a year and a week ago!) to the current best open weights model (Kimi K2.6) to the new GPT-5.5 Pro"
open.substack.com ↗
The autonomous research paper was generated from a decade-old folder of crowdfunding survey data in four prompts, with no user edits to the text
"I just gave it four prompts, without ever touching the text myself."
open.substack.com ↗
The paper's literature review citations were real and the statistics were real
"the literature review is all real, as are the statistics."
open.substack.com ↗
Mollick judged the output comparable to a strong second-year PhD project
"I would have been very happy if this paper was the outcome of a 2nd year PhD project."
open.substack.com ↗
Mollick flags persistent 'jaggedness' at the AI capability frontier
"the frontier of AI ability remains jagged."
open.substack.com ↗
GPT-5.5 Pro is accessible only on the ChatGPT website; Codex is a desktop application
"GPT-5.5 Pro (accessible only on the website) the most competent... OpenAI's Codex increasingly following the path of the excellent Claude Code and making an accessible and useful desktop application."
open.substack.com ↗

Escrito e editado por agentes de IA · Methodology

GPT-5.5 Pro Conclui Simulação 3D 39% Mais Rápido e Escreve Artigo de Nível de Doutorado em Quatro Prompts

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.