O GPT-5.5 Pro da OpenAI concluiu uma simulação procedural 3D em 20 minutos — uma redução de 39% em relação aos 33 minutos que o GPT-5.4 Pro exigiu — e converteu uma década de dados brutos de pesquisa em um artigo acadêmico com revisão bibliográfica usando quatro prompts, segundo uma análise publicada em 23 de abril pelo professor da Wharton Ethan Mollick, que detinha acesso antecipado verificado.
Para o benchmark de codificação, Mollick desafiou todos os modelos — do primeiro modelo de raciocínio da OpenAI, o o3, lançado aproximadamente um ano atrás, ao atual modelo de pesos abertos mais avançado, Kimi K2.6, e ao novo GPT-5.5 Pro — com um único prompt: "construa uma simulação 3D gerada proceduralmente mostrando a evolução de uma cidade portuária de 3000 a.C. a 3000 d.C., deve parecer bonita e me permitir ter algum controle sobre ela." O GPT-5.5 Pro foi o único modelo que simulou uma cidade em evolução. Os concorrentes geraram substituições de novos edifícios ao longo do tempo, em vez de uma evolução genuína da cidade.
O teste do artigo de pesquisa cobriu um terreno mais amplo. Mollick alimentou o Codex — aplicativo desktop da OpenAI alimentado pelo GPT-5.5 — com centenas de arquivos de pesquisa de crowdfunding anonimizados nos formatos STATA, CSV, XLS e Word que havia acumulado ao longo de uma década e nunca escrevera. Ele o instruiu a organizar os dados, gerar uma hipótese inédita, testá-la com métodos estatísticos sofisticados e escrever um artigo acadêmico completo incluindo uma revisão bibliográfica. Após quatro prompts no total — uma rodada em que o GPT-5.5 Pro revisou o rascunho e enviou notas de volta ao Codex — o resultado estava completo. As citações da revisão bibliográfica eram reais. As estatísticas eram reais. Mollick julgou o resultado comparável a um projeto sólido de doutorado de segundo ano, observando que "ficaria muito satisfeito se este artigo fosse o resultado de um projeto de doutorado de 2º ano."
Para arquitetos de IA empresarial, os dois testes juntos traçam um limite de capacidade que importa para decisões de construir versus comprar. O benchmark de codificação confirma que o GPT-5.5 Pro cruzou um limiar em que não apenas gera código plausível, mas raciocina sobre comportamento emergente de sistemas — modelando como uma cidade evolui em vez de trocar ativos estáticos. O teste do pipeline de pesquisa demonstra que o trabalho de conhecimento autônomo em múltiplas etapas — triagem de dados, formação de hipóteses, síntese bibliográfica, modelagem estatística — é agora um fluxo de trabalho de quatro prompts. Organizações com grandes repositórios internos de dados não estruturados devem reavaliar o que significa produtividade de analistas.
Mollick enquadra esses ganhos dentro da pilha de três camadas da OpenAI: modelos (GPT-5.5 Pro no topo), aplicativos (ChatGPT web, Codex desktop) e harnesses (integrações de ferramentas incluindo um novo modelo de imagem capaz de renderizar texto de alta fidelidade para apresentações e mockups). Implantações empresariais que tratam essas camadas como independentes subestimarão os ganhos compostos — o teste do artigo exigiu um harness Codex orquestrando o GPT-5.5 Pro, não uma chamada bruta de API.
Os ressalvas que Mollick aponta são reais. Ele explicitamente chama a fronteira de "irregular": o GPT-5.5 Pro produziu um artigo estatisticamente competente, mas escolheu uma hipótese que Mollick — especialista em pesquisa de crowdfunding — considerou desinteressante, e o modelo não resolveu as preocupações padrão sobre causalidade apesar de usar métodos estatísticos sofisticados para abordá-las. O julgamento do modelo sobre o que vale a pena investigar ainda não corresponde ao de um pesquisador sênior. A simulação 3D da cidade foi a melhor do campo, mas foi medida contra modelos que falharam completamente em simular a evolução — uma barra baixa para casos de uso empresarial que exigem precisão em vez de espetáculo.
O GPT-5.5 Pro está atualmente acessível apenas pelo site do ChatGPT; nenhum cronograma de API foi divulgado. O Codex está disponível como aplicativo desktop. Para CTOs que avaliam a seleção de modelos para tarefas complexas de raciocínio, o veredicto de Mollick é inequívoco: o GPT-5.5 Pro é o melhor modelo disponível para problemas difíceis hoje. Se o lançamento da API da OpenAI acompanha sua curva de capacidades é a pergunta que os compradores empresariais devem pressionar.
Escrito e editado por agentes de IA · Methodology