Esquema EvalCards Expõe Falhas Sistematizadas em Metadados de Benchmarks de IA

Um consórcio de 48 autores da Hugging Face, Stanford, EleutherAI e mais duas dúzias de instituições introduziram o EvalCards, um esquema estruturado de relatório de avaliação de IA. O esquema foi desenvolvido após a auditoria de 101.843 resultados de benchmark em 5.816 modelos e 635 benchmarks, revelando que a maioria das pontuações publicadas carece de metadados necessários para comparação justa.

O EvalCards integra metadados de benchmarks, parâmetros de execução de avaliação e metadados de modelo em um registro unificado focado em quatro sinais interpretativos: reprodutibilidade, completude da documentação, origem e risco, e comparabilidade de pontuações. Inclui modos de leitor para públicos de pesquisa e não pesquisa, permitindo que arquitetos comparem submissões MMLU acessando hiperparâmetros, formatação de prompt, contagem de poucos tiros e versão do harness sem analisar várias fontes. O objetivo é substituir o atual peso interpretativo com origem legível por máquina acompanhando a pontuação.

A auditoria do consórcio em 5.816 modelos, 635 benchmarks e 101.843 resultados confirmou lacunas sistemáticas de relatório, com hiperparâmetros, modelos de prompt e versões do evaluation harness frequentemente ausentes dos quadros de líderes, cartões de modelo e anúncios corporativos. Isso torna a comparação de pontuações entre fornecedores um exercício de precisão falsa. Um quadro paralelo de pesquisadores da Universidade de Copenhaga, ETH Zurich, Universidade de Amsterdã, Universidade de Barcelona e Johannes Kepler University Linz, publicado em novembro de 2025, identificou as mesmas crises — reprodutibilidade, acessibilidade e governança — e comparou o estado atual à química do século 19 antes do Congresso de Karlsruhe.

Não há evidência de nenhum fornecedor integrando o EvalCards em um pipeline de lançamento ativo; o artigo apresenta um esquema e uma auditoria de monitoramento, não um rastreamento de adoção. O consórcio observa que esforços de padronização anteriores falharam devido a cobrir fatias estreitas do ciclo de avaliação, produzir representações estáticas e carecer de infraestrutura para escala. Fornecedores tratam avaliação como um exercício de marketing, e a divulgação de metadados de nível de execução introduz exposição competitiva e revisão legal que nenhum esquema pode sozinho obrigar.

O trabalho relacionado do OpenEval em 155K itens e 10M respostas ao nível do item destaca uma limitação mais profunda: muitos problemas de validade são invisíveis no nível da pontuação agregada, ainda que as versões ao nível do item sejam raras. Para arquitetos, o risco de integração é que um EvalCard é tão bom quanto o pipeline que o alimenta. Sem extração automatizada de evaluation harnesses, o esquema corre o risco de se tornar apenas outra caixa de seleção performativa. A ferramenta de monitoramento prova que a doença é difundida; a cura requer integração CI/CD que nenhum provedor principal se comprometeu a fazer.

Sources

48-author consortium derived a reporting schema from a structured review of 52 papers and 10 stakeholder interviews; monitoring tool deployed across 5,816 models, 635 benchmarks, and 101,843 results
"We (1) derive a reporting schema from a structured review of 52 papers and 10 stakeholder interviews, (2) implement four interpretive signals (reproducibility, documentation completeness, provenance and risk, and score comparability)... and (3) deploy a monitoring tool that applies EvalCards across 5,816 models, 635 benchmarks, and 101,843 results, surfacing systematic gaps in current reporting practice."
arxiv.org ↗
EvalCards is an operational reporting layer that composes benchmark metadata, evaluation run data, and model metadata into a unified record
"We present EvalCards, an operational reporting layer that composes benchmark metadata, evaluation run data, and model metadata into a unified record."
arxiv.org ↗
Prior standardization efforts covered only narrow slices of the evaluation lifecycle, produced static representations, and lacked extraction infrastructure for adoption at scale
"Recent efforts address isolated components but leave three gaps: they cover only narrow slices of the evaluation lifecycle and do not compose into a single interpretable record; they specify static representations that do not differentiate the questions different stakeholders bring to the same evidence; and they remain proposals on paper, lacking the extraction infrastructure required for adoption at scale."
arxiv.org ↗
EvalCards paper (2606.09809) has 48 authors from Hugging Face, Stanford, EleutherAI, University of Copenhagen, IBM Research/MIT, and more than two dozen other institutions — no Anthropic or OpenAI
"1Hugging Face 2Stanford University 3Queen Mary University of London 4University of Copenhagen 5Trustible 6EleutherAI ... 33Massachusetts Institute of Technology"
arxiv.org ↗
Copenhagen EvalCards framework identified three crises—reproducibility, accessibility, and governance—and analogized current evaluation chaos to 19th-century chemistry before the Karlsruhe Congress; published November 2025
"the lack of agreed conventions on atomic weights left the field in chaos, with the same compounds appearing under conflicting formulas, until the Karlsruhe Congress established common standards"
arxiv.org ↗
Copenhagen EvalCards paper co-authored by researchers from University of Copenhagen, ETH Zurich, University of Amsterdam, University of Barcelona, and Johannes Kepler University Linz
"1 University of Copenhagen 2 ETH Zurich 3 University of Amsterdam 4 University of Barcelona 5 Johannes Kepler University Linz"
arxiv.org ↗
Evaluation reporting not a marketing exercise but a core component of responsible model release
"Our main argument is one for a shift in norms: evaluation reporting is not a marketing exercise but a core component of what it means to release a model responsibly."
arxiv.org ↗
OpenEval covers over 155K items and 10M item-level responses; many validity issues are not diagnosable from aggregate scores alone
"OpenEval now covers over 155K items across diverse benchmark datasets... resulting in 10M item-level responses... many validity issues are not diagnosable from benchmark-level aggregate scores alone."
arxiv.org ↗
Generative AI moving into high-stakes deployments while benchmarking has become the primary instrument for understanding model capabilities
"Generative AI is moving rapidly into high-stakes deployments, while AI evaluation, dominated by benchmarking practice, has become the primary instrument for understanding model capabilities, informing AI policy, and guiding responsible deployment."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Esquema EvalCards Expõe Falhas Sistematizadas em Metadados de Benchmarks de IA

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.