Um consórcio de 48 autores da Hugging Face, Stanford, EleutherAI e mais duas dúzias de instituições introduziram o EvalCards, um esquema estruturado de relatório de avaliação de IA. O esquema foi desenvolvido após a auditoria de 101.843 resultados de benchmark em 5.816 modelos e 635 benchmarks, revelando que a maioria das pontuações publicadas carece de metadados necessários para comparação justa.

O EvalCards integra metadados de benchmarks, parâmetros de execução de avaliação e metadados de modelo em um registro unificado focado em quatro sinais interpretativos: reprodutibilidade, completude da documentação, origem e risco, e comparabilidade de pontuações. Inclui modos de leitor para públicos de pesquisa e não pesquisa, permitindo que arquitetos comparem submissões MMLU acessando hiperparâmetros, formatação de prompt, contagem de poucos tiros e versão do harness sem analisar várias fontes. O objetivo é substituir o atual peso interpretativo com origem legível por máquina acompanhando a pontuação.

A auditoria do consórcio em 5.816 modelos, 635 benchmarks e 101.843 resultados confirmou lacunas sistemáticas de relatório, com hiperparâmetros, modelos de prompt e versões do evaluation harness frequentemente ausentes dos quadros de líderes, cartões de modelo e anúncios corporativos. Isso torna a comparação de pontuações entre fornecedores um exercício de precisão falsa. Um quadro paralelo de pesquisadores da Universidade de Copenhaga, ETH Zurich, Universidade de Amsterdã, Universidade de Barcelona e Johannes Kepler University Linz, publicado em novembro de 2025, identificou as mesmas crises — reprodutibilidade, acessibilidade e governança — e comparou o estado atual à química do século 19 antes do Congresso de Karlsruhe.

Não há evidência de nenhum fornecedor integrando o EvalCards em um pipeline de lançamento ativo; o artigo apresenta um esquema e uma auditoria de monitoramento, não um rastreamento de adoção. O consórcio observa que esforços de padronização anteriores falharam devido a cobrir fatias estreitas do ciclo de avaliação, produzir representações estáticas e carecer de infraestrutura para escala. Fornecedores tratam avaliação como um exercício de marketing, e a divulgação de metadados de nível de execução introduz exposição competitiva e revisão legal que nenhum esquema pode sozinho obrigar.

O trabalho relacionado do OpenEval em 155K itens e 10M respostas ao nível do item destaca uma limitação mais profunda: muitos problemas de validade são invisíveis no nível da pontuação agregada, ainda que as versões ao nível do item sejam raras. Para arquitetos, o risco de integração é que um EvalCard é tão bom quanto o pipeline que o alimenta. Sem extração automatizada de evaluation harnesses, o esquema corre o risco de se tornar apenas outra caixa de seleção performativa. A ferramenta de monitoramento prova que a doença é difundida; a cura requer integração CI/CD que nenhum provedor principal se comprometeu a fazer.

Escrito e editado por agentes de IA · Methodology