Painéis de Julgamento Diversificados por Fornecedor Eliminam Vies em Avaliações de Modelos de Linguagem

Um framework de código aberto, detalhado no artigo do arXiv "CoEval: Ranking Language Models for Custom Tasks Without Labeled Data or Trustworthy Benchmarks", permite que times classifiquem modelos de linguagem para tarefas proprietárias sem depender de benchmarks públicos contaminados ou adquirir rótulos humanos. O framework, desenvolvido pelos pesquisadores Alexander Apartsin e Yehudit Aperstein, gera itens de benchmark específicos de tarefa sob demanda e avalia modelos candidatos usando um conjunto de julgadores de várias famílias, alcançando uma correlação de 0,86 com a correção da verdade em domínios com dados rotulados. Isso aborda o problema da memorização nas tabelas de classificação padrão, onde itens de benchmarks públicos podem vazar para corpora de pré-treinamento, fazendo com que as pontuações relatadas reflitam a recordação em vez da adequação para um aplicativo específico.

O framework CoEval requer apenas uma descrição em texto de uma tarefa ou domínio. Modelos de professor sintetizam itens de benchmark controlados por atributos novamente em cada execução, eliminando a contaminação por design; os autores relatam zero sobreposição de 13-gram exata com cinco principais benchmarks públicos. Os modelos candidatos respondem a esses itens gerados e um painel de julgadores de várias famílias avalia as respostas. O framework evita avaliadores humanos, curadoria de conjunto de dados estático e rótulos predefinidos, permitindo que qualquer equipe regenere uma tabela de classificação internamente para finanças, biotecnologia, legais ou outros domínios proprietários onde as avaliações públicas não estão disponíveis ou não são confiáveis.

Economicamente, o framework é econômico, com os autores executando 7.978 avaliações por US$ 5,89, tornando possível executar novamente o pipeline em cada lançamento de modelo ou ciclo de ajuste fino. A geração dinâmica de itens evita o problema de vazamento de dados que afeta as tabelas de classificação padrão, enquanto ainda mantém uma correlação próxima com rótulos da verdade. Para líderes de plataforma de ML gerenciando catálogos de modelos, isso transforma a seleção de modelos de uma decisão episódica baseada em confiança para um processo repetitivo e automatizável.

A descoberta operacional mais significativa do artigo diz respeito à camada de julgamento. Um único juiz LLM pode apresentar arrependimento na escolha de 0,35 e pode ser anti-correlacionado com a verdade, tornando-se sistemáticamente pior do que o chute aleatório. Os autores demonstram que adicionar mais julgadores da mesma família de modelos não resolve o problema; a diversidade do fornecedor é crucial. Seu conjunto de várias famílias nunca foi anti-correlacionado com a verdade, mitigando o viés de verbosidade e preferência de mesma família que distorcem avaliações de modelos individuais. Times que confiam em um único endpoint de API para pontuar saídas devem considerar a reestruturação de sua pilha de avaliação.

Existem lacunas que os líderes de plataforma precisarão abordar. O artigo não especifica quais famílias de modelos de professor foram usadas para a geração, nem quantifica como as limitações do modelo de professor afetam a qualidade do benchmark. A latência, taxa de transferência e custos de horas de GPU para o pipeline completo de síntese e julgamento não são relatados, exigindo o perfil interno na infraestrutura de inferência antes de integrar em um loop CI/CD ou gateway de modelo automatizado. Embora o framework seja de código aberto e reutilizável, a integração em produção exigirá a validação interna de que as tarefas geradas correspondem à distribuição semântica do domínio alvo.

Sources

CoEval achieves 0.86 correlation (ho) with ground-truth correctness across tasks where labeled data exists
"CoEval recovers the true model ranking and tracks ground-truth correctness at ho=0.86"
arxiv.org ↗
A single LLM judge can exhibit choice regret of 0.35 and be anti-correlated with ground truth
"a single judge can be anti-correlated with ground truth (judge-choice regret 0.35) and the ensemble never is"
arxiv.org ↗
Judge panel reliability is driven by vendor diversity, not panel size
"judge-panel composition (vendor diversity), not size, drives reliability: a small, well-chosen cross-family panel is most reliable"
arxiv.org ↗
Generated benchmark items show zero verbatim 13-gram overlap with five major public benchmarks
"Generated items show zero verbatim 13-gram overlap with five major public benchmarks"
arxiv.org ↗
CoEval ran 7,978 evaluations across a four-task study for a total cost of $5.89
"A four-task study produced 7,978 evaluations for USD 5.89"
arxiv.org ↗
CoEval requires only a text description of a task or domain to synthesize fresh benchmark items with no human labels
"from only a description of a task or domain, teacher models synthesize a fresh, attribute-controlled benchmark with no human labels"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Painéis de Julgamento Diversificados por Fornecedor Eliminam Vies em Avaliações de Modelos de Linguagem

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.