FASE Reduz Custo de Detecção de Alucinações para 0,3% dos Concorrentes

Fast Adaptive Semantic Entropy (FASE), uma nova técnica desenvolvida pelos pesquisadores da Universidade de Waterloo Shizhe Lin e Ladan Tahvildari, reduz o custo de tempo de execução na detecção de alucinações na geração de código multi-agente para aproximadamente 0,3% dos métodos de entropia semântica existentes, enquanto aumenta a correlação com os resultados dos testes de verdadeiro-terreno em 25%. Este método substitui as verificações de equivalência caras do LLM-como-julgador com um algoritmo de árvore de-span mínimo sobre as embeddings de código, fornecendo um sinal de incerteza black-box que pode ser integrado entre as etapas do agente sem alterar pesos do modelo ou estados ocultos.

Sistemas de codificação multi-agentes como MetaGPT, CodeCoR e AdaCoder envolvem agentes especializados em papéis que transmitem artefatos para baixo, com erros iniciais se propagando através das etapas de planejamento, codificação, teste e revisão. Métodos tradicionais de entropia semântica detectam incerteza ao agrupar saídas funcionalmente equivalentes, usando verificações de implicação bidirecional do LLM que requerem uma chamada de juiz para cada par de amostras geradas. FASE elimina essas chamadas ao construir um grafo de dissimilaridade entre N amostras de código geradas, ponderando as arestas por estrutura AST e significado semântico do programa capturado por um modelo de embedding, e computando a entropia a partir da árvore de-span mínima desse grafo em vez de comparações completamente conectadas parewise. A camada semântica utiliza Qwen3-Embedding-8B, o modelo de peso aberto da Alibaba líder na tabela MTEB Multilingual e que suporta contextos de 32K-tokens.

FASE com Qwen3-Embedding-8B demonstrou uma melhoria de 25% na correlação de Spearman e um aumento de 19% no ROCAUC contra Pass@1 em comparação com a entropia semântica usando implicação do LLM quando avaliado em HumanEval e o mais desafiador, fora de distribuição BigCodeBench. Como o FASE requer apenas inferência de embedding e computação MST, seu custo por amostra é mínimo em relação à geração, cerca de três-tenths de um percento do custo de tempo de execução da entropia semântica tradicional, que por si só carrega sobrecarga de computação de 5–10× em relação à entropia de nível de token tolo. Isso torna o FASE uma porta de viabilidade em cada entrega de agente.

No entanto, ainda não há evidência de implantação em produção. O artigo avalia em benchmarks estáticos usando correlação Pass@1, não pipelines de agentes ao vivo. Antes de implantar o FASE em um stack de produção estilo MetaGPT, os arquitetos precisariam de distribuições de latência em entregas multi-agentes reais, curvas de calibração para falsos negativos em bugs confiantes e o custo total de geração das amostras N necessárias em cada porta. O FASE mede incerteza, não correção; uma solução errada confiante onde o LLM gera de forma estável o mesmo padrão buginado em amostras resultará em baixa entropia e será aprovada. Substituir um embedder de código mais fraco do que Qwen3-Embedding-8B também degradaria o grafo semântico.

FASE une as duas extremidades. As Provas de Entropia Semântica leem a incerteza dos estados ocultos em uma passagem para a frente única, mas requerem acesso white-box não disponível para GPT-4o, Claude ou a maioria dos APIs hospedados. A entropia semântica clássica funciona black-box, mas escala mal devido ao julgamento parwise do LLM. O FASE é black-box como o último e barato como o primeiro, tornando-se o único sinal de incerteza prático para equipes que executam modelos de peso fechado ou pilhas multi-agentes onde os internals estão proibidos.

A mensagem chave para os arquitetos é uma porta de incerteza barata antes do commit: antes que a saída de um agente de codificação alcance um agente de teste ou revisão, execute o FASE em algumas amostras; se a entropia for alta, regenere antes da cascata de erros, usando um modelo de embedding de peso aberto que não adiciona taxa de API.

Sources

FASE achieves 25% improvement in Spearman correlation and 19% increase in ROCAUC versus LLM-entailment semantic entropy on HumanEval and BigCodeBench using Qwen3-Embedding-8B
"FASE outperforms state-of-the-art semantic entropy by LLM entailment, achieving a 25% average improvement in Spearman correlation and a 19% increase in ROCAUC score against Pass@1 from ground-truth test cases when using the Qwen3-Embedding-8B model."
arxiv.org ↗
FASE requires only approximately 0.3% of the runtime cost of traditional semantic entropy approaches
"by eliminating costly LLM-driven equivalence evaluation, FASE incurs negligible computational overhead, requiring only approximately 0.3% of the runtime cost of traditional semantic entropy approaches."
arxiv.org ↗
FASE uses a minimum spanning tree of structural and semantic dissimilarity graphs to approximate functional correctness
"FASE, a novel metric that approximates functional correctness based on the minimum spanning tree of structural and semantic dissimilarity graphs."
arxiv.org ↗
Classic semantic entropy (Farquhar et al., Nature 2024) detects hallucinations by computing uncertainty at the level of meaning rather than text, and works without task-specific data
"Our method addresses the fact that one idea can be expressed in many ways by computing uncertainty at the level of meaning rather than specific sequences of words."
nature.com ↗
Semantic Entropy Probes (Kossen et al., 2024) reduce SE overhead to near-zero by reading uncertainty from hidden states of a single generation, but require white-box model access
"SEPs are simple to train and do not require sampling multiple model generations at test time, reducing the overhead of semantic uncertainty quantification to almost zero."
arxiv.org ↗
Standard semantic entropy computation carries a 5-to-10-fold increase in computation cost over naive entropy
"the 5-to-10-fold increase in computation cost associated with SE computation hinders practical adoption."
arxiv.org ↗
Qwen3-Embedding-8B ranked #1 on the MTEB Multilingual leaderboard (score 70.58), outperforming Gemini Embedding and OpenAI models, and is open-weight with 32K token context support
"the Qwen3-Embedding-8B model ranked 1st on the MTEB Multilingual leaderboard (70.58), outperforming commercial alternatives like Gemini Embedding and OpenAI models."
exploringartificialintelligence.substack.com ↗

Escrito e editado por agentes de IA · Methodology

FASE Reduz Custo de Detecção de Alucinações para 0,3% dos Concorrentes

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.