Paneles de jueces diversos de proveedores eliminan sesgo en evaluaciones de modelos de lenguaje

Un marco de código abierto, detallado en el documento de arXiv "CoEval: Clasificación de Modelos de Lenguaje para Tareas Personalizadas Sin Datos Etiquetados o Benchmarks Confiables", permite a los equipos clasificar modelos de lenguaje para tarefas propietarias sin confiar en benchmarks públicos contaminados o comprar etiquetas humanas. El marco, desarrollado por los investigadores Alexander Apartsin y Yehudit Aperstein, genera elementos de benchmark específicos de la tarea bajo demanda y puntúa a los modelos candidatos utilizando un conjunto de jueces de familia cruzada, logrando una correlación del 0.86 con la corrección de la verdad en dominios con datos etiquetados. Esto aborda el problema de la memorización en las tablas de clasificación estándar, donde los elementos de los benchmarks públicos pueden filtrarse en los corpus de pre-entrenamiento, haciendo que las puntuaciones informadas reflejen más bien la recall que la idoneidad para una aplicación específica.

El marco CoEval requiere solo una descripción de texto de una tarea o dominio. Los modelos de maestro sintetizan elementos de benchmark controlados por atributos de nuevo en cada ejecución, eliminando la contaminación por diseño; los autores informan de cero coincidencia literal de 13 gramos con cinco principales benchmarks públicos. Los modelos candidatos responden a estos elementos generados, y un panel de familia cruzada de jueces clasifica las respuestas. El marco evita evaluadores humanos, curación de conjuntos de datos estáticos y etiquetas predefinidas, permitiendo a cualquier equipo regenerar una tabla de clasificación internamente para finanzas, biotecnología, derecho u otros dominios propietarios donde las evaluaciones públicas no están disponibles o no son confiables.

Económicamente, el marco es rentable, con los autores ejecutando 7,978 evaluaciones por $5.89, lo que hace que sea factible volver a ejecutar el pipeline en cada lanzamiento de modelo o ciclo de ajuste fino. La generación dinámica de elementos evita el problema de filtración de datos que afecta a las tablas de clasificación estándar, mientras que aún se mantiene una correlación cercana con las etiquetas de verdad. Para los líderes de plataformas de ML que gestionan catálogos de modelos, esto transforma la selección de modelos de una decisión episódica basada en la confianza en un proceso repetible y automatizable.

El hallazgo operativo más significativo del documento se refiere a la capa de jueces. Un solo juez LLM puede mostrar un arrepentimiento de elección del 0.35 y puede estar anticorrelacionado con la verdad, lo que lo hace sistemáticamente peor que la suposición al azar. Los autores demuestran que agregar más jueces de la misma familia de modelos no resuelve el problema; la diversidad de proveedores es crucial. Su conjunto de familia cruzada nunca estuvo anticorrelacionado con la verdad, mitigando el sesgo de verbosidad y preferencia de la misma familia que distorsiona las evaluaciones de un solo modelo. Los equipos que confían en un único punto final de API para puntuar salidas deberían considerar volver a diseñar su pila de evaluación.

Hay lagunas que los líderes de plataformas deberán abordar. El documento no especifica qué familias de modelos de maestro se utilizaron para la generación, ni cuantifica cómo las limitaciones del modelo de maestro afectan la calidad del benchmark. La latencia, el rendimiento y los costos de horas de GPU para el pipeline completo de síntesis y juicio no se informan, lo que requiere el perfilado interno de la infraestructura de inferencia antes de integrarse en un ciclo de CI/CD o puerta de enlace de modelo automatizado. Si bien el marco es de código abierto y reusable, la integración en producción requerirá una validación interna de que las tareas generadas coincidan con la distribución semántica del dominio objetivo.

Sources

CoEval achieves 0.86 correlation (ho) with ground-truth correctness across tasks where labeled data exists
"CoEval recovers the true model ranking and tracks ground-truth correctness at ho=0.86"
arxiv.org ↗
A single LLM judge can exhibit choice regret of 0.35 and be anti-correlated with ground truth
"a single judge can be anti-correlated with ground truth (judge-choice regret 0.35) and the ensemble never is"
arxiv.org ↗
Judge panel reliability is driven by vendor diversity, not panel size
"judge-panel composition (vendor diversity), not size, drives reliability: a small, well-chosen cross-family panel is most reliable"
arxiv.org ↗
Generated benchmark items show zero verbatim 13-gram overlap with five major public benchmarks
"Generated items show zero verbatim 13-gram overlap with five major public benchmarks"
arxiv.org ↗
CoEval ran 7,978 evaluations across a four-task study for a total cost of $5.89
"A four-task study produced 7,978 evaluations for USD 5.89"
arxiv.org ↗
CoEval requires only a text description of a task or domain to synthesize fresh benchmark items with no human labels
"from only a description of a task or domain, teacher models synthesize a fresh, attribute-controlled benchmark with no human labels"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Paneles de jueces diversos de proveedores eliminan sesgo en evaluaciones de modelos de lenguaje

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.