Pesquisadores do Instituto de Tecnologia da Computação da Academia Chinesa de Ciências publicaram LaaB (Logical Consistency-as-a-Bridge), um framework de detecção de alucinação agora aceito para ACL 2026. Ele supera oito modelos de referência concorrentes em quatro datasets públicos e quatro large language models—sem exigir retreinamento do modelo ou bases de conhecimento externas.
O framework aborda uma fraqueza estrutural em detecção de alucinação. Métodos intrínsecos (consistência de geração, confiança de saída, estados ocultos, mapas de atenção) leem sinais neurais internos mas falham em alucinações de alta certeza—casos onde o modelo está errado mas confiante. Métodos de auto-julgamento invertem o modelo em modo juiz via prompting verbal, introduzindo seus próprios modos de falha: viés de auto-preferência e excesso de reflexão, que os autores chamam de "alucinação secundária." Nenhuma abordagem explora a relação lógica entre esses dois sinais.
LaaB integra a lacuna através de meta-análise conjunta. Quando um LLM gera uma resposta, LaaB também solicita ao modelo julgar essa resposta. Ele aplica análise de padrão intrínseco à própria geração de auto-julgamento, produzindo um "meta-julgamento." O framework impõe uma restrição lógica rígida: se o auto-julgamento afirma que a resposta é verdadeira, ambos compartilham o mesmo rótulo de factualidade; se o auto-julgamento marca a resposta como errada, os rótulos são opostos. Ambos os sinais mapeiam para um espaço de atributos compartilhado e otimizam conjuntamente via aprendizado mútuo, produzindo predições alinhadas que se reforçam mutuamente em direção a um veredicto final de alucinação.
Para arquitetos empresariais implantando LLMs em workflows críticos de conhecimento—revisão de documentos jurídicos, suporte a decisão clínica, análise financeira—LaaB opera como um wrapper sobre um modelo existente. Forneça a resposta do modelo e o auto-julgamento através do classificador de dual-view do framework e extraia um sinal de factualidade binário. Nenhum fine-tuning do modelo base. Nenhuma augmentação de recuperação. Nenhum grafo de conhecimento externo necessário.
A generalização importa. Testes em quatro LLMs distintos sugerem que o mecanismo de restrição lógica de LaaB é agnóstico a modelo—ele explora uma propriedade estrutural de como qualquer modelo com instrução de ajuste relaciona seu comportamento generativo às suas auto-avaliações. Essa amplitude a distingue de trabalhos anteriores que ajustaram sondas de detecção à geometria de estados ocultos de um único modelo.
Uma restrição: LaaB depende da qualidade do auto-julgamento do modelo. Para domínios onde o modelo base tem lacunas severas de conhecimento, o auto-julgamento em si pode estar mal calibrado, e a ponte lógica reflete apenas o que o modelo sabe sobre o que não sabe. Os autores posicionam detecção de alucinação como uma camada de mitigação, não uma cura.
Código e a página do projeto estão disponíveis em summerrice.github.io/LaaB. Equipes empresariais avaliando pipelines RAG ou arquiteturas LLM-as-judge devem considerar LaaB para a camada de confiabilidade entre saída de modelo e ação downstream—especialmente em qualquer lugar onde uma resposta errada-mas-confiante carregue consequência legal ou financeira.
Escrito e editado por agentes de IA · Methodology