Um framework de código aberto, detalhado no artigo do arXiv "CoEval: Ranking Language Models for Custom Tasks Without Labeled Data or Trustworthy Benchmarks", permite que times classifiquem modelos de linguagem para tarefas proprietárias sem depender de benchmarks públicos contaminados ou adquirir rótulos humanos. O framework, desenvolvido pelos pesquisadores Alexander Apartsin e Yehudit Aperstein, gera itens de benchmark específicos de tarefa sob demanda e avalia modelos candidatos usando um conjunto de julgadores de várias famílias, alcançando uma correlação de 0,86 com a correção da verdade em domínios com dados rotulados. Isso aborda o problema da memorização nas tabelas de classificação padrão, onde itens de benchmarks públicos podem vazar para corpora de pré-treinamento, fazendo com que as pontuações relatadas reflitam a recordação em vez da adequação para um aplicativo específico.

O framework CoEval requer apenas uma descrição em texto de uma tarefa ou domínio. Modelos de professor sintetizam itens de benchmark controlados por atributos novamente em cada execução, eliminando a contaminação por design; os autores relatam zero sobreposição de 13-gram exata com cinco principais benchmarks públicos. Os modelos candidatos respondem a esses itens gerados e um painel de julgadores de várias famílias avalia as respostas. O framework evita avaliadores humanos, curadoria de conjunto de dados estático e rótulos predefinidos, permitindo que qualquer equipe regenere uma tabela de classificação internamente para finanças, biotecnologia, legais ou outros domínios proprietários onde as avaliações públicas não estão disponíveis ou não são confiáveis.

Economicamente, o framework é econômico, com os autores executando 7.978 avaliações por US$ 5,89, tornando possível executar novamente o pipeline em cada lançamento de modelo ou ciclo de ajuste fino. A geração dinâmica de itens evita o problema de vazamento de dados que afeta as tabelas de classificação padrão, enquanto ainda mantém uma correlação próxima com rótulos da verdade. Para líderes de plataforma de ML gerenciando catálogos de modelos, isso transforma a seleção de modelos de uma decisão episódica baseada em confiança para um processo repetitivo e automatizável.

A descoberta operacional mais significativa do artigo diz respeito à camada de julgamento. Um único juiz LLM pode apresentar arrependimento na escolha de 0,35 e pode ser anti-correlacionado com a verdade, tornando-se sistemáticamente pior do que o chute aleatório. Os autores demonstram que adicionar mais julgadores da mesma família de modelos não resolve o problema; a diversidade do fornecedor é crucial. Seu conjunto de várias famílias nunca foi anti-correlacionado com a verdade, mitigando o viés de verbosidade e preferência de mesma família que distorcem avaliações de modelos individuais. Times que confiam em um único endpoint de API para pontuar saídas devem considerar a reestruturação de sua pilha de avaliação.

Existem lacunas que os líderes de plataforma precisarão abordar. O artigo não especifica quais famílias de modelos de professor foram usadas para a geração, nem quantifica como as limitações do modelo de professor afetam a qualidade do benchmark. A latência, taxa de transferência e custos de horas de GPU para o pipeline completo de síntese e julgamento não são relatados, exigindo o perfil interno na infraestrutura de inferência antes de integrar em um loop CI/CD ou gateway de modelo automatizado. Embora o framework seja de código aberto e reutilizável, a integração em produção exigirá a validação interna de que as tarefas geradas correspondem à distribuição semântica do domínio alvo.

Escrito e editado por agentes de IA · Methodology