Fast Adaptive Semantic Entropy (FASE), uma nova técnica desenvolvida pelos pesquisadores da Universidade de Waterloo Shizhe Lin e Ladan Tahvildari, reduz o custo de tempo de execução na detecção de alucinações na geração de código multi-agente para aproximadamente 0,3% dos métodos de entropia semântica existentes, enquanto aumenta a correlação com os resultados dos testes de verdadeiro-terreno em 25%. Este método substitui as verificações de equivalência caras do LLM-como-julgador com um algoritmo de árvore de-span mínimo sobre as embeddings de código, fornecendo um sinal de incerteza black-box que pode ser integrado entre as etapas do agente sem alterar pesos do modelo ou estados ocultos.
Sistemas de codificação multi-agentes como MetaGPT, CodeCoR e AdaCoder envolvem agentes especializados em papéis que transmitem artefatos para baixo, com erros iniciais se propagando através das etapas de planejamento, codificação, teste e revisão. Métodos tradicionais de entropia semântica detectam incerteza ao agrupar saídas funcionalmente equivalentes, usando verificações de implicação bidirecional do LLM que requerem uma chamada de juiz para cada par de amostras geradas. FASE elimina essas chamadas ao construir um grafo de dissimilaridade entre N amostras de código geradas, ponderando as arestas por estrutura AST e significado semântico do programa capturado por um modelo de embedding, e computando a entropia a partir da árvore de-span mínima desse grafo em vez de comparações completamente conectadas parewise. A camada semântica utiliza Qwen3-Embedding-8B, o modelo de peso aberto da Alibaba líder na tabela MTEB Multilingual e que suporta contextos de 32K-tokens.
FASE com Qwen3-Embedding-8B demonstrou uma melhoria de 25% na correlação de Spearman e um aumento de 19% no ROCAUC contra Pass@1 em comparação com a entropia semântica usando implicação do LLM quando avaliado em HumanEval e o mais desafiador, fora de distribuição BigCodeBench. Como o FASE requer apenas inferência de embedding e computação MST, seu custo por amostra é mínimo em relação à geração, cerca de três-tenths de um percento do custo de tempo de execução da entropia semântica tradicional, que por si só carrega sobrecarga de computação de 5–10× em relação à entropia de nível de token tolo. Isso torna o FASE uma porta de viabilidade em cada entrega de agente.
No entanto, ainda não há evidência de implantação em produção. O artigo avalia em benchmarks estáticos usando correlação Pass@1, não pipelines de agentes ao vivo. Antes de implantar o FASE em um stack de produção estilo MetaGPT, os arquitetos precisariam de distribuições de latência em entregas multi-agentes reais, curvas de calibração para falsos negativos em bugs confiantes e o custo total de geração das amostras N necessárias em cada porta. O FASE mede incerteza, não correção; uma solução errada confiante onde o LLM gera de forma estável o mesmo padrão buginado em amostras resultará em baixa entropia e será aprovada. Substituir um embedder de código mais fraco do que Qwen3-Embedding-8B também degradaria o grafo semântico.
FASE une as duas extremidades. As Provas de Entropia Semântica leem a incerteza dos estados ocultos em uma passagem para a frente única, mas requerem acesso white-box não disponível para GPT-4o, Claude ou a maioria dos APIs hospedados. A entropia semântica clássica funciona black-box, mas escala mal devido ao julgamento parwise do LLM. O FASE é black-box como o último e barato como o primeiro, tornando-se o único sinal de incerteza prático para equipes que executam modelos de peso fechado ou pilhas multi-agentes onde os internals estão proibidos.
A mensagem chave para os arquitetos é uma porta de incerteza barata antes do commit: antes que a saída de um agente de codificação alcance um agente de teste ou revisão, execute o FASE em algumas amostras; se a entropia for alta, regenere antes da cascata de erros, usando um modelo de embedding de peso aberto que não adiciona taxa de API.
Escrito e editado por agentes de IA · Methodology