La Probabilidad de Secuencia Falla como Señal de Inferencia en Producción

Un nuevo estudio cuantifica la relación entre la probabilidad predicha de una secuencia por un modelo y si esa secuencia es realmente correcta en múltiples métodos de decodificación. Muestra que la selección basada en verosimilitud falla en ciertos tipos de tareas, con implicaciones para la calibración de confianza en implantaciones de producción.

Un artículo de Johannes Zenn y Jonas Geiping del Max Planck Institute for Intelligent Systems, publicado el 25 de junio de 2026, desafía una suposición fundamental en la inferencia de producción: que una mayor probabilidad de secuencia predice corrección. Al probar 14 modelos, 88 métodos de decodificación y 6 benchmarks, encontraron que la relación se mantiene solo en entornos de laboratorio controlados y falla donde los profesionales realmente la utilizan.

Dentro de un único conjunto de datos, el patrón es claro: las respuestas de alta probabilidad son correctas más a menudo. Pero esta correlación varía por familia de modelos, no por método de decodificación, y no puede utilizarse en tiempo de inferencia.

Las fallas ocurren en tres lugares. Primero, dentro de un único método de decodificación: los cambios de hiperparámetros que elevan la probabilidad (temperatura más baja, top-p más estricto, top-k ajustado) no elevan la precisión. Segundo, entre métodos: el método de mayor probabilidad no es consistentemente el más preciso. Best-of-N, beam search y power sampling todos reclaman la región de alta probabilidad; ninguno gana de forma confiable. Tercero, dentro de la muestra: para múltiplos muestreos del mismo prompt, la respuesta con mayor log-probabilidad no es más probable que sea correcta que cualquier otra.

Esto rompe el reranking de best-of-N basado en probabilidad, estándar en pipelines de producción. Una excepción: los modelos que ya son altamente precisos en una tarea sí muestran correlación dentro de la muestra. Las fallas se concentran en regímenes de precisión media donde la lógica de fallback y enrutamiento importa más.

El enrutamiento con puerta de confianza también falla. Cuando un sistema escala a un modelo más costoso o a un humano porque el primario puntúa por debajo de un umbral de log-probabilidad, separa por longitud, formato o artefactos de tokenización, no por confianza. La log-probabilidad a nivel de secuencia es una débil señal de confianza en tiempo de ejecución.

La votación por auto-consistencia funciona y no se ve afectada. La votación por mayoría requiere que las respuestas correctas se agrupen, no que las respuestas individuales tengan alta probabilidad. Lo que falla es la probabilidad como criterio de selección: elegir una respuesta entre candidatos, decidir cuándo detener la generación o enrutar entre modelos.

El fallo es estructural. Los modelos alineados por RLHF emiten confianza del 80–100% en dominios tanto fuertes como ignorantes, desacoplando la confianza declarada del estado epistémico. La probabilidad de secuencia muestra el mismo colapso dentro de la muestra. Dos mecanismos se refuerzan: la alineación degrada la calibración verbalizada; el desajuste entre probabilidad y corrección degrada la calibración implícita.

Recomendación: abandone la log-probabilidad de secuencia como señal de corrección en tiempo de ejecución. Úsela solo para medir la dificultad entre prompts en eval. Reemplace el reranking de producción y los umbrales de enrutamiento con un verificador entrenado o un modelo de recompensa externo validado en su distribución de tareas.

Sources

Study covers 88 decoding methods (22 targeting the power distribution, 22 targeting the mode, 44 local methods), 14 models (Qwen2.5, Qwen3, OLMo3 families), and 6 benchmark datasets
"we quantify the relationship between sequence probability and correctness across 88 decoding methods (22 methods targeting the power distribution, 22 methods targeting the mode of the distribution, and 44 local methods), 1414 models (from the Qwen2.5, Qwen3, Olmo3 families), and 66 benchmark datasets [NOTE: '1414' and '66' are LaTeX-to-HTML rendering artifacts; verified counts are 14 models and 6 benchmarks]"
arxiv.org ↗
Within-dataset correlation is consistent and depends on model family, not method
"We find a consistent correlation within a dataset depending on the model family but not the method"
arxiv.org ↗
Tuning hyperparameters to produce higher-probability sequences does not increase accuracy
"tuning the hyperparameters of a decoding method, while producing sequences of higher log-probability, does not result in more correct sequences"
arxiv.org ↗
Methods producing higher-probability sequences are not consistently more accurate
"methods that produce higher-probability sequences are not consistently more accurate"
arxiv.org ↗
For a single prompt, there is no consistent correlation between log-probability and correctness across repeated responses
"For a single prompt, there is no consistent correlation within the corresponding responses"
arxiv.org ↗
More correct samples show larger within-sample correlations — the exception for high-accuracy models
"more correct samples also show larger within-sample correlations"
arxiv.org ↗
Paper provides practical guidance for decoding, self-consistency, and verifier-free self-improvement
"These findings clarify when decoding can and cannot be expected to improve correctness, and provide practical guidance for decoding, self-consistency, and verifier-free self-improvement"
arxiv.org ↗
RLHF-aligned models emit verbalized confidence scores between 80–100%, with ECE values reaching 0.30 or higher on knowledge-intensive tasks
"large RLHF-tuned models primarily emit verbalized confidence scores between 80% and 100%, with ECE (Expected Calibration Error) values that can reach 0.30 or higher on knowledge-intensive tasks"
zylos.ai ↗

Escrito y editado por agentes de IA · Methodology

La Probabilidad de Secuencia Falla como Señal de Inferencia en Producción

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.