El Esquema EvalCards Revela Brechas Metadatos de Comparación de IA Sistematizadas

Un consorcio de 48 autores de Hugging Face, Stanford, EleutherAI y más de dos docenas de otras instituciones ha presentado EvalCards, un esquema estructurado de informes de evaluación de IA. El esquema fue desarrollado después de auditar 101,843 resultados de comparativas en 5,816 modelos y 635 comparativas, revelando que la mayoría de las puntuaciones publicadas carecen de los metadatos necesarios para una comparación justa.

EvalCards integra metadatos de comparativas, parámetros de ejecución de evaluación y metadatos de modelos en un registro unificado enfocado en cuatro señales interpretativas: reproducibilidad, completitud de la documentación, procedencia y riesgo, y comparabilidad de puntajes. Incluye modos de lectura para audiencias de investigación y no de investigación, permitiendo a los arquitectos comparar envíos de MMLU accediendo a hiperparámetros, formato de indicaciones, recuento de pocos disparos y versión del arnés sin analizar múltiples fuentes. El objetivo es reemplazar la carga interpretativa actual con una procedencia legible por máquina acompañando al puntaje.

La auditoría del consorcio en 5,816 modelos, 635 comparativas y 101,843 resultados confirmó brechas sistemáticas en la presentación, con hiperparâmetros, plantillas de indicaciones y versiones del arnés de evaluación a menudo ausentes en tablas de posiciones, tarjetas de modelos y anuncios corporativos. Esto convierte la comparación de puntajes entre proveedores en un ejercicio de precisión falsa. Un marco paralelo de investigadores de la Universidad de Copenhague, ETH Zúrich, la Universidad de Ámsterdam, la Universidad de Barcelona y la Universidad Johannes Kepler Linz, publicado en noviembre de 2025, identificó las mismas crisis: reproducibilidad, accesibilidad y gobernanza, y comparó el estado actual con la química del siglo XIX antes del Congreso de Karlsruhe.

No hay evidencia de que ningún proveedor haya integrado EvalCards en una tubería de lanzamiento en vivo; el documento presenta un esquema y una auditoría de monitoreo, no un rastro de adopción. El consorcio señala que los esfuerzos de estandarización anteriores fallaron debido a que abarcaban rebanadas estrechas del ciclo de evaluación, producían representaciones estáticas y carecían de infraestructura para la escala. Los proveedores tratan la evaluación como un ejercicio de marketing, y la divulgación de metadatos a nivel de ejecución introduce exposición competitiva y revisión legal que ningún esquema por sí solo puede obligar.

El trabajo relacionado de OpenEval en 155K elementos y 10M respuestas a nivel de elemento resalta una limitación más profunda: muchos problemas de validez son invisibles a nivel de puntajes agregados, pero las entregas a nivel de elemento siguen siendo raras. Para los arquitectos, el riesgo de integración es que un EvalCard es tan bueno como la tubería que lo alimenta. Sin extracción automática de arneses de evaluación, el esquema corre el riesgo de convertirse en otro recuadro de verificación performativo. La herramienta de monitoreo demuestra que la enfermedad es ampliamente difundida; la cura requiere integración CI/CD que ningún proveedor principal ha comprometido.

Sources

48-author consortium derived a reporting schema from a structured review of 52 papers and 10 stakeholder interviews; monitoring tool deployed across 5,816 models, 635 benchmarks, and 101,843 results
"We (1) derive a reporting schema from a structured review of 52 papers and 10 stakeholder interviews, (2) implement four interpretive signals (reproducibility, documentation completeness, provenance and risk, and score comparability)... and (3) deploy a monitoring tool that applies EvalCards across 5,816 models, 635 benchmarks, and 101,843 results, surfacing systematic gaps in current reporting practice."
arxiv.org ↗
EvalCards is an operational reporting layer that composes benchmark metadata, evaluation run data, and model metadata into a unified record
"We present EvalCards, an operational reporting layer that composes benchmark metadata, evaluation run data, and model metadata into a unified record."
arxiv.org ↗
Prior standardization efforts covered only narrow slices of the evaluation lifecycle, produced static representations, and lacked extraction infrastructure for adoption at scale
"Recent efforts address isolated components but leave three gaps: they cover only narrow slices of the evaluation lifecycle and do not compose into a single interpretable record; they specify static representations that do not differentiate the questions different stakeholders bring to the same evidence; and they remain proposals on paper, lacking the extraction infrastructure required for adoption at scale."
arxiv.org ↗
EvalCards paper (2606.09809) has 48 authors from Hugging Face, Stanford, EleutherAI, University of Copenhagen, IBM Research/MIT, and more than two dozen other institutions — no Anthropic or OpenAI
"1Hugging Face 2Stanford University 3Queen Mary University of London 4University of Copenhagen 5Trustible 6EleutherAI ... 33Massachusetts Institute of Technology"
arxiv.org ↗
Copenhagen EvalCards framework identified three crises—reproducibility, accessibility, and governance—and analogized current evaluation chaos to 19th-century chemistry before the Karlsruhe Congress; published November 2025
"the lack of agreed conventions on atomic weights left the field in chaos, with the same compounds appearing under conflicting formulas, until the Karlsruhe Congress established common standards"
arxiv.org ↗
Copenhagen EvalCards paper co-authored by researchers from University of Copenhagen, ETH Zurich, University of Amsterdam, University of Barcelona, and Johannes Kepler University Linz
"1 University of Copenhagen 2 ETH Zurich 3 University of Amsterdam 4 University of Barcelona 5 Johannes Kepler University Linz"
arxiv.org ↗
Evaluation reporting not a marketing exercise but a core component of responsible model release
"Our main argument is one for a shift in norms: evaluation reporting is not a marketing exercise but a core component of what it means to release a model responsibly."
arxiv.org ↗
OpenEval covers over 155K items and 10M item-level responses; many validity issues are not diagnosable from aggregate scores alone
"OpenEval now covers over 155K items across diverse benchmark datasets... resulting in 10M item-level responses... many validity issues are not diagnosable from benchmark-level aggregate scores alone."
arxiv.org ↗
Generative AI moving into high-stakes deployments while benchmarking has become the primary instrument for understanding model capabilities
"Generative AI is moving rapidly into high-stakes deployments, while AI evaluation, dominated by benchmarking practice, has become the primary instrument for understanding model capabilities, informing AI policy, and guiding responsible deployment."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

El Esquema EvalCards Revela Brechas Metadatos de Comparación de IA Sistematizadas

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.