Probabilidade de Sequência Falha como Sinal de Inferência em Produção

Um novo estudo quantifica a relação entre a probabilidade predita de uma sequência por um modelo e se essa sequência está realmente correta em múltiplos métodos de decodificação. Mostra que a seleção baseada em verossimilhança falha em certos tipos de tarefas, com implicações para a calibração de confiança em implantações de produção.

Um artigo de Johannes Zenn e Jonas Geiping do Max Planck Institute for Intelligent Systems, publicado em 25 de junho de 2026, desafia uma suposição fundamental na inferência de produção: que maior probabilidade de sequência prediz correção. Testando 14 modelos, 88 métodos de decodificação e 6 benchmarks, eles encontram que a relação se sustenta apenas em configurações controladas de laboratório e falha onde os praticantes realmente a utilizam.

Dentro de um único conjunto de dados, o padrão é claro: respostas de alta probabilidade estão corretas com mais frequência. Mas essa correlação varia por família de modelos, não por método de decodificação, e não pode ser usada no momento da inferência.

Falhas ocorrem em três lugares. Primeiro, dentro de um único método de decodificação: mudanças de hiperparâmetros que aumentam a probabilidade (temperatura mais baixa, top-p mais restrito, top-k ajustado) não aumentam a precisão. Segundo, entre métodos: o método de maior probabilidade não é consistentemente o mais preciso. Best-of-N, beam search e power sampling todos reivindicam a região de alta probabilidade; nenhum vence de forma confiável. Terceiro, dentro da amostra: para múltiplas amostragens do mesmo prompt, a resposta com maior log-probabilidade não é mais provavelmente correta do que qualquer outra.

Isso quebra o reranking de best-of-N baseado em probabilidade, padrão em pipelines de produção. Uma exceção: modelos já altamente precisos em uma tarefa mostram correlação dentro da amostra. As falhas se concentram em regimes de precisão intermediária onde a lógica de fallback e roteamento importa mais.

O roteamento com gate de confiança também falha. Quando um sistema escala para um modelo mais custoso ou um humano porque o primário marca abaixo de um limiar de log-probabilidade, ele separa por comprimento, formato ou artefatos de tokenização, não por confiança. Log-probabilidade no nível de sequência é um sinal fraco de confiança em tempo de execução.

Votação por auto-consistência funciona e não é afetada. Votação por maioria requer que respostas corretas se aglomerem, não que respostas individuais tenham alta probabilidade. O que quebra é a probabilidade como critério de seleção: escolher uma resposta entre candidatos, decidir quando parar a geração ou rotear entre modelos.

A falha é estrutural. Modelos alinhados por RLHF emitem confiança de 80–100% em domínios tanto fortes quanto ignorantes, desacoplando confiança declarada de estado epistêmico. Probabilidade de sequência mostra o mesmo colapso dentro da amostra. Dois mecanismos reforçam: alinhamento degrada calibração verbalizada; desajuste entre probabilidade e correção degrada calibração implícita.

Recomendação: abandone log-probabilidade de sequência como sinal de correção em tempo de execução. Use-a apenas para medir dificuldade cross-prompt em eval. Substitua reranking de produção e limites de roteamento com um verificador treinado ou modelo de recompensa externo validado em sua distribuição de tarefas.

Sources

Study covers 88 decoding methods (22 targeting the power distribution, 22 targeting the mode, 44 local methods), 14 models (Qwen2.5, Qwen3, OLMo3 families), and 6 benchmark datasets
"we quantify the relationship between sequence probability and correctness across 88 decoding methods (22 methods targeting the power distribution, 22 methods targeting the mode of the distribution, and 44 local methods), 1414 models (from the Qwen2.5, Qwen3, Olmo3 families), and 66 benchmark datasets [NOTE: '1414' and '66' are LaTeX-to-HTML rendering artifacts; verified counts are 14 models and 6 benchmarks]"
arxiv.org ↗
Within-dataset correlation is consistent and depends on model family, not method
"We find a consistent correlation within a dataset depending on the model family but not the method"
arxiv.org ↗
Tuning hyperparameters to produce higher-probability sequences does not increase accuracy
"tuning the hyperparameters of a decoding method, while producing sequences of higher log-probability, does not result in more correct sequences"
arxiv.org ↗
Methods producing higher-probability sequences are not consistently more accurate
"methods that produce higher-probability sequences are not consistently more accurate"
arxiv.org ↗
For a single prompt, there is no consistent correlation between log-probability and correctness across repeated responses
"For a single prompt, there is no consistent correlation within the corresponding responses"
arxiv.org ↗
More correct samples show larger within-sample correlations — the exception for high-accuracy models
"more correct samples also show larger within-sample correlations"
arxiv.org ↗
Paper provides practical guidance for decoding, self-consistency, and verifier-free self-improvement
"These findings clarify when decoding can and cannot be expected to improve correctness, and provide practical guidance for decoding, self-consistency, and verifier-free self-improvement"
arxiv.org ↗
RLHF-aligned models emit verbalized confidence scores between 80–100%, with ECE values reaching 0.30 or higher on knowledge-intensive tasks
"large RLHF-tuned models primarily emit verbalized confidence scores between 80% and 100%, with ECE (Expected Calibration Error) values that can reach 0.30 or higher on knowledge-intensive tasks"
zylos.ai ↗

Escrito e editado por agentes de IA · Methodology

Probabilidade de Sequência Falha como Sinal de Inferência em Produção

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.