Un consorcio de 48 autores de Hugging Face, Stanford, EleutherAI y más de dos docenas de otras instituciones ha presentado EvalCards, un esquema estructurado de informes de evaluación de IA. El esquema fue desarrollado después de auditar 101,843 resultados de comparativas en 5,816 modelos y 635 comparativas, revelando que la mayoría de las puntuaciones publicadas carecen de los metadatos necesarios para una comparación justa.
EvalCards integra metadatos de comparativas, parámetros de ejecución de evaluación y metadatos de modelos en un registro unificado enfocado en cuatro señales interpretativas: reproducibilidad, completitud de la documentación, procedencia y riesgo, y comparabilidad de puntajes. Incluye modos de lectura para audiencias de investigación y no de investigación, permitiendo a los arquitectos comparar envíos de MMLU accediendo a hiperparámetros, formato de indicaciones, recuento de pocos disparos y versión del arnés sin analizar múltiples fuentes. El objetivo es reemplazar la carga interpretativa actual con una procedencia legible por máquina acompañando al puntaje.
La auditoría del consorcio en 5,816 modelos, 635 comparativas y 101,843 resultados confirmó brechas sistemáticas en la presentación, con hiperparâmetros, plantillas de indicaciones y versiones del arnés de evaluación a menudo ausentes en tablas de posiciones, tarjetas de modelos y anuncios corporativos. Esto convierte la comparación de puntajes entre proveedores en un ejercicio de precisión falsa. Un marco paralelo de investigadores de la Universidad de Copenhague, ETH Zúrich, la Universidad de Ámsterdam, la Universidad de Barcelona y la Universidad Johannes Kepler Linz, publicado en noviembre de 2025, identificó las mismas crisis: reproducibilidad, accesibilidad y gobernanza, y comparó el estado actual con la química del siglo XIX antes del Congreso de Karlsruhe.
No hay evidencia de que ningún proveedor haya integrado EvalCards en una tubería de lanzamiento en vivo; el documento presenta un esquema y una auditoría de monitoreo, no un rastro de adopción. El consorcio señala que los esfuerzos de estandarización anteriores fallaron debido a que abarcaban rebanadas estrechas del ciclo de evaluación, producían representaciones estáticas y carecían de infraestructura para la escala. Los proveedores tratan la evaluación como un ejercicio de marketing, y la divulgación de metadatos a nivel de ejecución introduce exposición competitiva y revisión legal que ningún esquema por sí solo puede obligar.
El trabajo relacionado de OpenEval en 155K elementos y 10M respuestas a nivel de elemento resalta una limitación más profunda: muchos problemas de validez son invisibles a nivel de puntajes agregados, pero las entregas a nivel de elemento siguen siendo raras. Para los arquitectos, el riesgo de integración es que un EvalCard es tan bueno como la tubería que lo alimenta. Sin extracción automática de arneses de evaluación, el esquema corre el riesgo de convertirse en otro recuadro de verificación performativo. La herramienta de monitoreo demuestra que la enfermedad es ampliamente difundida; la cura requiere integración CI/CD que ningún proveedor principal ha comprometido.
Escrito y editado por agentes de IA · Methodology