Las clasificaciones de LLM no predicen fiabilidad en producción

Los promedios de referencia que sugieren paridad con expertos humanos para los modelos de lenguaje grandes de vanguardia (LLM) son cuestionados por evaluaciones en el mundo real. Perrett et al. llevaron a cabo una prueba fuera de distribución donde expertos humanos y un LLM líder escribieron código para una tarea de análisis de datos, con humanos superando al modelo en tanto en precisión media como en varianza de rendimiento. Además, llm-stats.com probó GPT-5.2, Gemini-3-Pro, Gemini-3-Flash, Qwen3-Max, GLM-4.7, MiniMax-M2.1 y MIMO-v2-Flash en seis referencias, revelando un 85,2% de tasa de fracaso promedio en la Última Prueba de la Humanidad, con el 46,2% de las preguntas respondidas incorrectamente por todos los modelos.

La referencia de Perrett et al. evitó la contaminación de datos de entrenamiento utilizando una tarea de codificación en vivo en lugar de una Q&A estática. Las pruebas de llm-stats.com incluyeron HLE, AIME 2025, PolyMATH, MRCR, HealthBench y FactsGrounding. La taxonomía de Vinay identificó quince modos de fallo ocultos en sistemas de producción LLM, como el desplazamiento de la razonamiento multi-pasos, la incoherencia latente y el colapso del rendimiento impulsado por costos, que no son capturados por las referencias estándar. Estos estudios resaltan la discrepancia entre las métricas de las clasificaciones y los requisitos del sistema de producción, enfatizando que la precisión media en conjuntos de datos curados no refleja la fiabilidad, la magnitud del error o el comportamiento bajo carga.

En HLE, el mejor modelo en el dominio de las matemáticas falló más de la mitad del tiempo, alcanzando un máximo del 47,3% de precisión. Biología y medicina alcanzaron un pico del 35,3%, física en 30,4% y ciencia de la computación/IA en 30,0%. La precisión de recuperación en MRCR disminuyó 26 puntos porcentuales a medida que la cuenta objetivo aumentaba de 2 a 8. El razonamiento de cambio de perspectiva falló el 91,4% del tiempo. Estos estudios no proporcionan latencia p50, costo por millón de tokens o consumo de horas de GPU, pero las tasas de fracaso son operativas, cuantificando la probabilidad de que un modelo de frontera comete un error silencioso en una tarea de alta estatura.

Las referencias miden el rendimiento promedio en datos probablemente presentes en corpora de pre-entrenamiento, mientras que la producción demanda control de varianza en datos no vistos. Perrett et al. encontraron que el LLM de frontera no solo tenía una precisión promedio inferior a la de los humanos sino también exhibía una mayor variabilidad, con algunas ejecuciones produciendo resultados aceptables y otras fallando sin señales claras. Las referencias estándar ignoran la magnitud del error: un JSON mal formado y un p-valor mal calculado ambos se registran como incorrectos, pero solo uno afecta una decisión de negocios. Vinay señala que ninguna referencia existente cubre brechas de observabilidad, regresiones inducidas por actualizaciones o colapso del rendimiento impulsado por costos, dejando a los arquitectos para descubrir estos modos de fallo después del despliegue.

Para los líderes de plataformas de ML, los marcos de evaluación actuales son inadecuados para la automatización. Confiar en las clasificaciones de las clasificaciones para seleccionar un modelo para agentes multi-pasos o pipelines de análisis se optimiza para la precisión media en datos potencialmente contaminados, ignorando la varianza y la magnitud del error que determinan la fiabilidad en producción. El desafío es operacionalizar el seguimiento de la varianza y la puntuación de la magnitud del error dentro de los CI/CD existentes para los prompts, ya que ni el ecosistema de referencias ni la mayoría de los paquetes de observabilidad comercial exponen estas estadísticas de forma nativa, y ningún proveedor ofrece un conjunto de pruebas para los quince modos de fallo de producción de Vinay.

Adopta una lista de verificación de evaluación centrada en la varianza, la magnitud del error y los quince modos de fallo de producción de Vinay para guiar la selección del modelo.

Sources

Human experts outperformed a frontier LLM on both mean accuracy and performance variance in an applied data-analysis code-writing task
"Our study reveals that the human experts perform better on average on a range of metrics and demonstrate less variability in performance."
arxiv.org ↗
Standard benchmarks often measure performance on content included in LLM training data and do not assess reliability or error magnitude
"Primary limitations of many benchmarking tasks are that they often measure performance based on content directly included in LLM training data, and they frequently do not assess the reliability of LLM performance or the magnitude of LLM errors."
arxiv.org ↗
LLMs do not consistently perform at the level of human experts
"Our results provide evidence that LLMs do not consistently perform at the level of human experts and demonstrate the importance of measuring variance and assessing error magnitude in LLM benchmark evaluations."
arxiv.org ↗
Fifteen hidden production failure modes catalogued — including multi-step reasoning drift, latent inconsistency, context-boundary degradation, incorrect tool invocation, version drift, and cost-driven performance collapse
"This paper presents a system-level taxonomy of fifteen hidden failure modes that arise in real-world LLM applications, including multi-step reasoning drift, latent inconsistency, context-boundary degradation, incorrect tool invocation, version drift, and cost-driven performance collapse."
arxiv.org ↗
Existing benchmarks measure knowledge or reasoning but provide little insight into stability, reproducibility, drift, or workflow integration
"existing benchmarks measure knowledge or reasoning but provide little insight into stability, reproducibility, drift, or workflow integration."
arxiv.org ↗
85.2% average failure rate on Humanity's Last Exam across seven frontier models; 46.2% of questions answered incorrectly by every single model
"We observe that 85.2% of questions on HLE (Humanity's Last Exam) are answered incorrectly on average, with 46.2% failed by all models."
llm-stats.com ↗
Retrieval accuracy degrades by 26 percentage points as target count increases from 2 to 8
"Retrieval accuracy degrades by 26 percentage points as target count increases from 2 to 8."
llm-stats.com ↗
Perspective-shift reasoning tasks show 91.4% failure rate across frontier models
"Perspective-shift reasoning tasks show 91.4% failure."
llm-stats.com ↗
HLE max completion rates: Math 47.3%, Biology/Medicine 35.3%, Physics 30.4%, Computer Science/AI 30.0%
"no domain exceeds 47.3% completion, and most remain below 35%."
llm-stats.com ↗
Leaderboard rankings may provide limited guidance for deployment decisions
"leaderboard rankings may provide limited guidance for deployment decisions, and that evaluation frameworks could benefit from surfacing failure patterns rather than compressing them into single scores."
llm-stats.com ↗

Escrito y editado por agentes de IA · Methodology

Las clasificaciones de LLM no predicen fiabilidad en producción

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.