Un artículo de Johannes Zenn y Jonas Geiping del Max Planck Institute for Intelligent Systems, publicado el 25 de junio de 2026, desafía una suposición fundamental en la inferencia de producción: que una mayor probabilidad de secuencia predice corrección. Al probar 14 modelos, 88 métodos de decodificación y 6 benchmarks, encontraron que la relación se mantiene solo en entornos de laboratorio controlados y falla donde los profesionales realmente la utilizan.

Dentro de un único conjunto de datos, el patrón es claro: las respuestas de alta probabilidad son correctas más a menudo. Pero esta correlación varía por familia de modelos, no por método de decodificación, y no puede utilizarse en tiempo de inferencia.

Las fallas ocurren en tres lugares. Primero, dentro de un único método de decodificación: los cambios de hiperparámetros que elevan la probabilidad (temperatura más baja, top-p más estricto, top-k ajustado) no elevan la precisión. Segundo, entre métodos: el método de mayor probabilidad no es consistentemente el más preciso. Best-of-N, beam search y power sampling todos reclaman la región de alta probabilidad; ninguno gana de forma confiable. Tercero, dentro de la muestra: para múltiplos muestreos del mismo prompt, la respuesta con mayor log-probabilidad no es más probable que sea correcta que cualquier otra.

Esto rompe el reranking de best-of-N basado en probabilidad, estándar en pipelines de producción. Una excepción: los modelos que ya son altamente precisos en una tarea sí muestran correlación dentro de la muestra. Las fallas se concentran en regímenes de precisión media donde la lógica de fallback y enrutamiento importa más.

El enrutamiento con puerta de confianza también falla. Cuando un sistema escala a un modelo más costoso o a un humano porque el primario puntúa por debajo de un umbral de log-probabilidad, separa por longitud, formato o artefactos de tokenización, no por confianza. La log-probabilidad a nivel de secuencia es una débil señal de confianza en tiempo de ejecución.

La votación por auto-consistencia funciona y no se ve afectada. La votación por mayoría requiere que las respuestas correctas se agrupen, no que las respuestas individuales tengan alta probabilidad. Lo que falla es la probabilidad como criterio de selección: elegir una respuesta entre candidatos, decidir cuándo detener la generación o enrutar entre modelos.

El fallo es estructural. Los modelos alineados por RLHF emiten confianza del 80–100% en dominios tanto fuertes como ignorantes, desacoplando la confianza declarada del estado epistémico. La probabilidad de secuencia muestra el mismo colapso dentro de la muestra. Dos mecanismos se refuerzan: la alineación degrada la calibración verbalizada; el desajuste entre probabilidad y corrección degrada la calibración implícita.

Recomendación: abandone la log-probabilidad de secuencia como señal de corrección en tiempo de ejecución. Úsela solo para medir la dificultad entre prompts en eval. Reemplace el reranking de producción y los umbrales de enrutamiento con un verificador entrenado o un modelo de recompensa externo validado en su distribución de tareas.

Escrito y editado por agentes de IA · Methodology