Análise Arena: 66% dos Votos no Ranking se Cancelam

Análise de 89 mil comparações Arena em 52 LLMs mostra que os atuais rankings por pares são estatisticamente pouco confiáveis: quase 2/3 dos votos decisivos se cancelam, e os 50 melhores modelos apresentam probabilidades de vitória ≤0,53. Os achados questionam como as empresas devem ponderar benchmarks públicos na seleção de modelos.

Uma meta-análise de 89 mil comparações por pares de preferência humana em 52 Large Language Models constata que os rankings globais publicados pelos principais leaderboards de LLM são estatisticamente pouco confiáveis — uma descoberta com consequências diretas para os fluxos de seleção de modelos empresariais que tratam scores do tipo Arena como verdade absoluta.

O paper "Why Global LLM Leaderboards Are Misleading" foi publicado em 7 de maio de 2026 por Jai Moondra, Ayela Chughtai, Bhargavi Lanka e Swati Gupta. Os pesquisadores analisaram aproximadamente 89 mil comparações Arena em 116 idiomas usando o modelo Bradley-Terry (BT) — o mesmo framework probabilístico que leaderboards usam para calcular rankings no estilo ELO — e mediram se esses rankings refletem realmente preferências humanas consistentes. Descobriram que não refletem.

O problema estatístico central é o cancelamento de votos. Quase dois terços dos votos decisivos no dataset se cancelam quando agregados em um único ranking global. Nos 50 melhores modelos do ranking global BT, probabilidades de vitória por pares nunca excedem 0,53 — estatisticamente indistinguíveis de um sorteio de moeda. Empresas usando esses rankings para escolher entre, digamos, o modelo 5º e o 20º colocado estão tomando decisões que os dados não sustentam.

Os autores rastreiam a falha à heterogeneidade estruturada: preferências de avaliadores diferem drasticamente por idioma, tipo de tarefa e tempo. O idioma é a variável dominante. Quando comparações são agrupadas por família linguística em vez de agregadas globalmente, a dispersão de scores ELO aumenta em duas ordens de magnitude, produzindo rankings internamente coerentes. O que parece ruído em uma visão global é na verdade uma sobreposição de subpopulações coerentes mas conflitantes votando por modelos diferentes em contextos diferentes.

Para arquitetos empresariais, isso reposiciona como protocolos de avaliação internos devem ser construídos. Um score de benchmark único — ou uma posição única em leaderboard — mostra qual modelo vence entre uma multidão heterogênea. Não mostra qual modelo tem melhor desempenho para sua base de usuários específica, distribuição de idiomas ou mix de tarefas. Decisões de compra ancoradas em leaderboards globais escolhem o modelo que equilibra preferências conflitantes globalmente, não o modelo que melhor serve seus usuários.

A contribuição construtiva do paper é um framework chamado (λ, ν)-portfolios: pequenos conjuntos de modelos que juntos alcançam erro de previsão de no máximo λ enquanto cobrem pelo menos uma fração ν de usuários. Os autores formulam seleção de modelos como uma variante do problema set-cover e fornecem garantias teóricas usando VC dimension. Aplicado aos dados Arena, seu algoritmo recupera cinco rankings BT distintos que coletivamente cobrem mais de 96% dos votos — em comparação com 21% de cobertura alcançada pelo ranking global único. Um portfólio de seis LLMs escolhidos por esse método cobre duas vezes mais votos do que simplesmente pegar os seis primeiros do leaderboard global.

O framework se estende além de dados de preferência. Os autores constroem um portfólio para uma tarefa de classificação no dataset COMPAS usando classificadores regularizados por equidade e revelam pontos cegos nos dados — um sinal separado para equipes de conformidade e equidade avaliando modelos sob escrutínio regulatório.

Para equipes de avaliação de modelos: segmente avaliações internas por idioma, tarefa e coorte de usuário antes de agregar scores. Um modelo classificado 3º globalmente pode estar 1º para seu segmento de usuário principal e 40º para outro. O leaderboard não sabe qual você está construindo.

Sources

Analysis covers approximately 89,000 pairwise comparisons across 52 LLMs and 116 languages from Arena
"We analyze ~89K comparisons in 116 languages from 52 LLMs from Arena"
arxiv.org ↗
Nearly two-thirds of decisive votes cancel out in the global Bradley-Terry ranking
"Nearly 2/3 of the decisive votes cancel out"
arxiv.org ↗
Top 50 models in the global BT ranking show pairwise win probabilities of at most 0.53, making them statistically indistinguishable
"even the top 50 models according to the global BT ranking are statistically indistinguishable (pairwise win probabilities are at most 0.53 within the top 50 models)"
arxiv.org ↗
Grouping comparisons by language increases ELO score spread by two orders of magnitude, producing coherent rankings
"Grouping by language (and families) increases the agreement of votes massively, resulting in two orders of magnitude higher spread in the ELO scores (i.e., very consistent rankings)"
arxiv.org ↗
Five distinct BT rankings cover over 96% of Arena votes, versus 21% coverage by the global ranking
"our algorithms recover just 5 distinct BT rankings that cover over 96% of votes at a modest λ, compared to the 21% coverage by the global ranking"
arxiv.org ↗
A portfolio of 6 LLMs chosen by the new framework covers twice as many votes as the top-6 models from the global leaderboard
"a portfolio of 6 LLMs that cover twice as many votes as the top-6 LLMs from a global ranking"
arxiv.org ↗
Paper published May 7, 2026, by Jai Moondra, Ayela Chughtai, Bhargavi Lanka, and Swati Gupta
"AUTHORS: Jai Moondra, Ayela Chughtai, Bhargavi Lanka, Swati Gupta"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Análise Arena: 66% dos Votos no Ranking se Cancelam

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.