Los promedios de referencia que sugieren paridad con expertos humanos para los modelos de lenguaje grandes de vanguardia (LLM) son cuestionados por evaluaciones en el mundo real. Perrett et al. llevaron a cabo una prueba fuera de distribución donde expertos humanos y un LLM líder escribieron código para una tarea de análisis de datos, con humanos superando al modelo en tanto en precisión media como en varianza de rendimiento. Además, llm-stats.com probó GPT-5.2, Gemini-3-Pro, Gemini-3-Flash, Qwen3-Max, GLM-4.7, MiniMax-M2.1 y MIMO-v2-Flash en seis referencias, revelando un 85,2% de tasa de fracaso promedio en la Última Prueba de la Humanidad, con el 46,2% de las preguntas respondidas incorrectamente por todos los modelos.

La referencia de Perrett et al. evitó la contaminación de datos de entrenamiento utilizando una tarea de codificación en vivo en lugar de una Q&A estática. Las pruebas de llm-stats.com incluyeron HLE, AIME 2025, PolyMATH, MRCR, HealthBench y FactsGrounding. La taxonomía de Vinay identificó quince modos de fallo ocultos en sistemas de producción LLM, como el desplazamiento de la razonamiento multi-pasos, la incoherencia latente y el colapso del rendimiento impulsado por costos, que no son capturados por las referencias estándar. Estos estudios resaltan la discrepancia entre las métricas de las clasificaciones y los requisitos del sistema de producción, enfatizando que la precisión media en conjuntos de datos curados no refleja la fiabilidad, la magnitud del error o el comportamiento bajo carga.

En HLE, el mejor modelo en el dominio de las matemáticas falló más de la mitad del tiempo, alcanzando un máximo del 47,3% de precisión. Biología y medicina alcanzaron un pico del 35,3%, física en 30,4% y ciencia de la computación/IA en 30,0%. La precisión de recuperación en MRCR disminuyó 26 puntos porcentuales a medida que la cuenta objetivo aumentaba de 2 a 8. El razonamiento de cambio de perspectiva falló el 91,4% del tiempo. Estos estudios no proporcionan latencia p50, costo por millón de tokens o consumo de horas de GPU, pero las tasas de fracaso son operativas, cuantificando la probabilidad de que un modelo de frontera comete un error silencioso en una tarea de alta estatura.

Las referencias miden el rendimiento promedio en datos probablemente presentes en corpora de pre-entrenamiento, mientras que la producción demanda control de varianza en datos no vistos. Perrett et al. encontraron que el LLM de frontera no solo tenía una precisión promedio inferior a la de los humanos sino también exhibía una mayor variabilidad, con algunas ejecuciones produciendo resultados aceptables y otras fallando sin señales claras. Las referencias estándar ignoran la magnitud del error: un JSON mal formado y un p-valor mal calculado ambos se registran como incorrectos, pero solo uno afecta una decisión de negocios. Vinay señala que ninguna referencia existente cubre brechas de observabilidad, regresiones inducidas por actualizaciones o colapso del rendimiento impulsado por costos, dejando a los arquitectos para descubrir estos modos de fallo después del despliegue.

Para los líderes de plataformas de ML, los marcos de evaluación actuales son inadecuados para la automatización. Confiar en las clasificaciones de las clasificaciones para seleccionar un modelo para agentes multi-pasos o pipelines de análisis se optimiza para la precisión media en datos potencialmente contaminados, ignorando la varianza y la magnitud del error que determinan la fiabilidad en producción. El desafío es operacionalizar el seguimiento de la varianza y la puntuación de la magnitud del error dentro de los CI/CD existentes para los prompts, ya que ni el ecosistema de referencias ni la mayoría de los paquetes de observabilidad comercial exponen estas estadísticas de forma nativa, y ningún proveedor ofrece un conjunto de pruebas para los quince modos de fallo de producción de Vinay.

Adopta una lista de verificación de evaluación centrada en la varianza, la magnitud del error y los quince modos de fallo de producción de Vinay para guiar la selección del modelo.

Escrito y editado por agentes de IA · Methodology