Pesquisadores de Waterloo reduzem custo de quantificação de incerteza em 99,7% com FASE

Pesquisadores da Universidade de Waterloo introduziram o Fast Adaptive Semantic Entropy (FASE), uma nova métrica que reduz significativamente o custo computacional da quantificação de incerteza na geração de código multi-agente. O FASE requer aproximadamente apenas 0,3% do custo computacional das abordagens tradicionais de entropia semântica de implicação LLM, alcançando uma redução de 99,7%, enquanto aumenta a correlação de Spearman com a correção funcional de verdade-terreno em 25% nos benchmarks HumanEval e BigCodeBench quando emparelhado com as embeddings Qwen3-Embedding-8B. Este método aborda os problemas das cascatas de alucinações e propagação de erros em pipelines de engenharia de software autônomo, onde agentes transmitem código parcialmente quebrado para baixo.

A quantificação de incerteza atual para saídas de LLM depende da entropia semântica, que agrupa gerações em conjuntos equivalentes semanticamente usando verificações de implicação bidirecional direcionadas por LLM. Kossen et al. (ICLR 2025) quantificou esse ciclo de implicação como impostando um aumento de 5 a 10 vezes no custo de computação, tornando-o proibitivo para roteamento em tempo real ou rejeição em fluxos de trabalho multi-agente iterativos. O FASE elimina a necessidade de um grande modelo de linguagem atuando como juiz ao construir um gráfico de dissimilaridade entre as gerações de código candidatos, combinando arestas estruturais e semânticas, e aproximando a correção funcional usando a árvore geradora mínima desse gráfico. O componente semântico é tratado por Qwen3-Embedding-8B, enquanto o componente estrutural captura variação no nível da sintaxe sem passagens adicionais de LLM. A pontuação de incerteza não requer chamadas de modelo de fronteira além das gerações iniciais.

O FASE alcançou um ROC-AUC 19% superior ao Pass@1 a partir de casos de teste de verdade-terreno do que a entropia semântica de implicação LLM tradicional nos benchmarks HumanEval e BigCodeBench ao usar o modelo Qwen3-Embedding-8B, com a melhoria média da correlação de Spearman de 25% mantida em ambos. Os autores sugerem o FASE para detecção de falhas em tempo real e roteamento adaptativo em sistemas multi-agente, onde um orquestrador pode usar a pontuação FASE para interromper um pipeline ou acionar a regeneração antes que o código com falhas se propague para o próximo agente.

O FASE ainda não foi testado em ambientes de produção. Sua avaliação está limitada a conjuntos de benchmarks públicos com known test harnesses, deixando abertas questões sobre seu comportamento em monorepos proprietários, linguagens dinamicamente tipadas ou saídas de agentes que misturam código com chamadas de ferramentas de linguagem natural. Os métodos de entropia semântica requerem um orçamento de geração - várias amostras da mesma solicitação - para produzir um sinal de incerteza estável, o que entra em conflito com etapas de agentes de único disparo otimizados para latência. O peso relativo das arestas estruturais versus semânticas no MST é outra superfície de ajuste que requer orientação para evitar o ajuste excessivo da métrica para problemas algorítmicos de estilo de benchmark em vez de tarefas de código de cola ou pesadas em APIs de produção.

Sources

FASE requires only approximately 0.3% of the runtime cost of traditional semantic entropy approaches — a 99.7% reduction
"by eliminating costly LLM-driven equivalence evaluation, FASE incurs negligible computational overhead, requiring only approximately 0.3% of the runtime cost of traditional semantic entropy approaches"
arxiv.org ↗
FASE achieves 25% average improvement in Spearman correlation and 19% increase in ROC-AUC vs LLM-entailment semantic entropy on HumanEval and BigCodeBench using Qwen3-Embedding-8B
"achieving a 25% average improvement in Spearman correlation and a 19% increase in ROCAUC score against Pass@1 from ground-truth test cases when using the Qwen3-Embedding-8B model"
arxiv.org ↗
FASE uses a minimum spanning tree of structural and semantic dissimilarity graphs to approximate functional correctness without LLM calls
"a novel metric that approximates functional correctness based on the minimum spanning tree of structural and semantic dissimilarity graphs"
arxiv.org ↗
Traditional semantic entropy (Kossen et al., ICLR 2025) imposes a 5-to-10-fold increase in computation cost, hindering practical adoption
"the 5-to-10-fold increase in computation cost associated with SE computation hinders practical adoption"
openreview.net ↗
Original semantic entropy (Farquhar et al., Nature 2024) computes uncertainty over semantic meanings by clustering generations sharing meaning before computing entropy
"To detect confabulations, we use probabilistic tools to define and then measure the 'semantic' entropy of the generations of an LLM—an entropy that is computed over meanings of sentences"
nature.com ↗

Escrito e editado por agentes de IA · Methodology

Pesquisadores de Waterloo reduzem custo de quantificação de incerteza em 99,7% com FASE

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.