Entropia do Primeiro Token Rival Detecção de Alucinação Multi-Amostra

Pesquisadores mostram que a detecção de alucinação pode ser realizada usando apenas o escore de confiança do primeiro token (entropia dos logits top-K), eliminando a necessidade de verificação de consenso multi-amostra custosa. O método de passagem única reduz custo de inferência e latência para sistemas em produção mantendo poder de discriminação.

Uma única passagem de decodificação gulosa detecta alucinações de LLM tão confiável quanto métodos de consenso multi-amostra custosos, segundo pesquisa recente de Mina Gabriel publicada no arXiv esta semana. O achado desafia diretamente a suposição de que detecção de alucinação requer chamadas de inferência repetidas — um padrão custoso em pipelines em produção.

O método, chamado phi_first, computa a entropia normalizada dos logits top-K no primeiro token resposta portador de conteúdo durante um decodificação gulosa padrão. Sem amostragem adicional, sem classificador externo, sem etapa de cluster de natural language inference.

Em três modelos instruction-tuned de 7–8B e dois benchmarks factuais de resposta curta closed-book, phi_first alcançou AUROC médio de 0.820. Self-consistency de forma-superficial padrão — que gera múltiplas respostas amostradas e mede acordo lexical — marcou 0.791. Self-consistency semântica, que agrupa respostas amostradas por significado usando natural language inference para lidar com variação lexical, marcou 0.793. A métrica de passagem única igualou ou superou ambas as abordagens multi-amostra.

Combinar phi_first com acordo semântico em um ensemble rendeu apenas melhoria marginal de AUROC em relação a phi_first sozinho. Entropia de logit e acordo entre amostras são moderada a fortemente correlacionados, significando que a maioria da informação de incerteza em sinais de acordo já está presente no primeiro token. O overhead multi-amostra compra muito pouca discriminação adicional.

Para times empresariais executando pipelines de LLM voltadas para cliente em escala, a implicação de custo é direta. Detecção de alucinação baseada em self-consistency tipicamente multiplica computação de inferência pelo número de amostras extraídas — frequentemente cinco a dez — antes de qualquer resposta ser retornada. Self-consistency semântica adiciona uma passagem de inferência NLI separada em cima disso. Substituindo ambas com leitura de entropia-logit em um decodificação gulosa já-agendada elimina esse multiplicador inteiramente e remove o pico de latência inerente a amostragem paralela. Em alto throughput, essa diferença determina se verificação de alucinação é economicamente viável no caminho da requisição ou deve ser adiada para auditoria assíncrona.

A abordagem também simplifica arquitetura de sistema. Consenso multi-amostra requer coordenar requisições de geração paralela, agregar outputs, e executar um modelo NLI ou executar lógica de string-matching. phi_first se integra em qualquer stack de serving que exponha distribuições de logit por-token — capacidade já presente em vLLM, TGI, e TensorRT-LLM. Não há novos pesos de modelo, nenhum fine-tuning, e nenhum endpoint de modelo adicional para gerenciar.

Validação é limitada a QA factual closed-book com modelos de 7–8B parâmetros. Se o sinal mantém para geração de forma-longa, classes de modelo maiores, ou tarefas retrieval-augmented permanece não-validado. O paper não testa phi_first em outputs de chain-of-thought ou geração de código, onde o primeiro token portador de conteúdo é semanticamente menos carregado. Calibração em domínios com taxa-base variável de alucinação é também uma questão aberta.

Gabriel argumenta que phi_first deveria ser reportado como baseline padrão de baixo-custo em qualquer estudo de estimativa de incerteza antes de mover para métodos baseados em amostragem. Para praticantes: antes de implementar uma verificação de consenso multi-amostra em um pipeline sensível a latência, meça o que entropia de primeiro-token compra. Na maioria dos cenários QA factual, a resposta é quase tudo.

Sources

phi_first achieves a mean AUROC of 0.820 across three 7-8B instruction-tuned models and two benchmarks
"phi_first achieves a mean AUROC of 0.820, compared with 0.793 for semantic agreement and 0.791 for standard surface-form self-consistency"
arxiv.org ↗
Semantic self-consistency scored 0.793 AUROC; standard surface-form self-consistency scored 0.791
"phi_first achieves a mean AUROC of 0.820, compared with 0.793 for semantic agreement and 0.791 for standard surface-form self-consistency"
arxiv.org ↗
phi_first is computed from the normalized entropy of the top-K logits at the first content-bearing answer token of a single greedy decode
"first-token confidence, phi_first, computed from the normalized entropy of the top-K logits at the first content-bearing answer token of a single greedy decode"
arxiv.org ↗
Combining phi_first with semantic agreement yields only a small AUROC improvement over phi_first alone
"combining the two signals yields only a small AUROC improvement over phi_first alone"
arxiv.org ↗
phi_first is moderately to strongly correlated with semantic agreement, per a subsumption test
"A subsumption test shows that phi_first is moderately to strongly correlated with semantic agreement"
arxiv.org ↗
Much of the uncertainty information in multi-sample agreement is already available in the model's initial token distribution
"much of the uncertainty information captured by multi-sample agreement is already available in the model's initial token distribution"
arxiv.org ↗
The paper argues phi_first should be the default low-cost baseline before invoking sampling-based uncertainty estimation
"We argue that phi_first should be reported as a default low-cost baseline before invoking sampling-based uncertainty estimation"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Entropia do Primeiro Token Rival Detecção de Alucinação Multi-Amostra

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.