Médias de benchmarks que sugerem paridade com especialistas humanos para modelos de linguagem avançados (LLMs) são desafiadas por avaliações do mundo real. Perrett et al. realizaram um teste fora da distribuição onde especialistas humanos e um LLM líder escreveram código para uma tarefa de análise de dados, com humanos superando o modelo tanto na precisão média quanto na variância de desempenho. Além disso, o llm-stats.com testou o GPT-5.2, Gemini-3-Pro, Gemini-3-Flash, Qwen3-Max, GLM-4.7, MiniMax-M2.1 e MIMO-v2-Flash em seis benchmarks, revelando uma taxa de falha média de 85,2% no Exame Final da Humanidade, com 46,2% das perguntas respondidas incorretamente por todos os modelos.

O benchmark de Perrett et al. evitou a contaminação de dados de treinamento usando uma tarefa de codificação ao vivo em vez de Q&A estático. Os testes do llm-stats.com incluíram HLE, AIME 2025, PolyMATH, MRCR, HealthBench e FactsGrounding. A taxonomia de Vinay identificou quinze modos de falha ocultos em sistemas de produção LLM—como deriva de raciocínio em várias etapas, inconsistência latente e colapso de desempenho motivado por custos—que não são capturados por benchmarks padrão. Esses estudos realçam a discrepância entre as métricas dos quadros de líderes e os requisitos dos sistemas de produção, enfatizando que a precisão média em conjuntos de dados curados não reflete confiabilidade, magnitude de erro ou comportamento sob carga.

No HLE, o melhor modelo no domínio de matemática falhou mais da metade das vezes, alcançando um máximo de 47,3% de precisão. Biologia e medicina atingiram 35,3%, física 30,4% e ciência da computação/IA 30,0%. A precisão de recuperação no MRCR diminuiu 26 pontos percentuais à medida que a contagem de alvos aumentou de 2 para 8. O raciocínio de mudança de perspectiva falhou 91,4% das vezes. Esses estudos não fornecem latência p50, custo por milhão de tokens ou queima de GPU-hour, mas as taxas de falha são operacionais, quantificando a probabilidade de um modelo de fronteira cometer um erro silencioso em uma tarefa de alto risco.

Os benchmarks medem a performance média em dados provavelmente presentes em corpora de pré-treinamento, enquanto a produção exige controle de variância em dados não vistos. Perrett et al. encontraram que o LLM de fronteira não apenas teve uma precisão média inferior aos humanos, mas também exibiu maior variabilidade, com algumas rodadas produzindo saídas aceitáveis e outras falhando sem sinais claros. Os benchmarks padrão ignoram a magnitude do erro: um JSON mal formatado e um p-valor mal calculado ambos são registrados como errados, mas apenas um afeta uma decisão de negócios. Vinay observa que nenhum benchmark existente cobre lacunas de observabilidade, regressões induzidas por atualizações ou colapso de desempenho motivado por custos, deixando arquitetos para descobrir esses modos de falha pós-implantação.

Para líderes de plataformas de ML, os atuais meios de avaliação são insuficientes para automação. Recorrer a classificações de quadros de líderes para selecionar um modelo para agentes de várias etapas ou pipelines de análise otimiza pela precisão média em dados potencialmente contaminados, ignorando a variância e a magnitude do erro que determinam a confiabilidade em produção. O desafio é operacionalizar o acompanhamento de variância e pontuação de magnitude de erro dentro do CI/CD existente para prompts, pois nem o ecossistema de benchmarks nem a maioria dos pacotes de observabilidade comercial expõem esses estatísticas nativamente, e nenhum fornecedor oferece um conjunto de testes para os quinze modos de falha de Vinay.

Adote uma lista de verificação de avaliação focada em variância, magnitude de erro e os quinze modos de falha de produção de Vinay para orientar a seleção do modelo.

Escrito e editado por agentes de IA · Methodology