Research sexta-feira, 26 de junho de 2026 às 16:08

Modelos de fronteira saturam benchmark GPQA-Diamond em 93–94%; SWE-bench Pro torna-se diferenciador chave

Todos os principais modelos de fronteira—Claude Opus 4.8, Gemini 3.1 Pro e GPT-5.5—convergiram para 93–94% no GPQA-Diamond, um benchmark de múltipla escolha de nível de PhD em biologia, química e física lançado no final de 2023. O benchmark tornou-se saturado estatisticamente; a diferença de 0,7 pontos entre primeiro e terceiro lugar está dentro da margem de erro. Há dois anos (novembro de 2023), GPT-4 marcou apenas 39% no GPQA-Diamond; o salto para 93–94% em meados de 2026 demonstra progresso rápido no raciocínio de nível de graduação, mas também sinaliza que o benchmark não diferencia mais significativamente os modelos de fronteira. Anthropic, OpenAI e Google todas declararam saturação GPQA em seus system cards.

A mudança de saturação muda quais benchmarks importam para ranking. SWE-bench Pro (variante mais difícil com menos vaz amento público) e Humanity's Last Exam (raciocínio escrito por especialistas) agora mostram separação real. No SWE-bench Pro, Opus 4.8 lidera em 69,2% versus GPT-5.5 em 58,6% e Gemini 3.1 Pro em 54,2% —um gap de 15 pontos. No Humanity's Last Exam com ferramentas, Opus 4.8 marca 57,9%, e o leaderboard abrange uma gama mais ampla, indicando espaço ainda aberto. O campo está redefinindo benchmarks, com FrontierMath (Epoch AI) e SWE-bench Verified (problemas do GitHub) emergindo como tarefas de filtragem mais difíceis. Mais dramático: Claude Opus 4.8 acertou 96,7% no USAMO 2026 (provas de nível Olímpico), um salto de 27,4 pontos do 69,3% do Opus 4.7, sinalizando uma mudança qualitativa no raciocínio de nível de prova matemática.

A implicação: GPQA-Diamond e outros benchmarks saturados não servem mais como filtros de capacidade. Quando avaliações posteriores convergem, a distribuição da diferenciação se inverte—ela se move do raciocínio de alto nível (que todos os modelos agora lidam bem) para desempenho de tarefa aplicada (codificação em escala, fluxos de trabalho aénicos de múltiplas ferramentas, síntese de contexto longo, alinhamento/honestidade). Saturação de benchmark não é falha; é evidência de progresso. Também significa que decisões de seleção de modelo agora descansam em avaliação específica de carga de trabalho em vez de comparações de raciocínio entre domínios.

Para arquitetos: se sua avaliação confiava em GPQA-Diamond ou MMLU, atualize sua suite de benchmarking. Teste contra SWE-bench Pro (para codificação), Humanity's Last Exam (para raciocínio aénico com ferramentas) e avaliações OSWorld ou BrowserAgent (para conclusão de tarefa no mundo real). Observe lançamentos de FrontierMath da Epoch AI e avaliações específicas de domínio de Vals AI. Custo-por-saída-correta agora é mais importante do que ranking de ponto percentual em benchmarks saturados. Planeje sua seleção de modelo em torno de casos de uso específicos, não de leaderboards de fronteira geral.

Modelos de fronteira saturam benchmark GPQA-Diamond em 93–94%; SWE-bench Pro torna-se diferenciador chave

Fontes

Receba o sinal antes do ruído.