FASE, um método de quantificação de incerteza para geração de código multi-agente, reduz o tempo de execução da detecção de alucinações para 0,3 por cento dos atuais baselines de implicação de LLM e aumenta a correlação de Spearman em 25 por cento. Este método oferece aos arquitetos um limite de qualidade de candidato para entregas de agentes sem a necessidade de casos de teste da verdadeira. Pesquisadores da Universidade de Waterloo enviaram seus achados para as Transações da ACM sobre Engenharia de Software e Metodologia, abordando um modo de falha em frameworks como MetaGPT, CodeCoR e AdaCoder, onde um plano ou trecho de código alucinado pode se propagar por agentes downstream, desperdiçando chamadas de inferência.
O método de detecção de ponta, seguindo o protocolo de entropia semântica de Farquhar et al. de 2024, usa um poderoso LLM para verificações de implicação bidirecional em saídas amostradas. Este método é preciso, mas consome tokens de inferência auto-regressiva em cada candidato, tornando-o impraticável para pipelines de software autônomo. A entropia estrutural de Song et al. de 2025 reduz os custos ao analisar a sintaxe do código, mas perde equivalências semânticas. FASE combina ambos os métodos, construindo uma árvore geradora mínima em um gráfico de dissimilaridade que mescla distâncias estruturais e semânticas. As bordas semânticas são calculadas com Qwen3-Embedding-8B, evitando a necessidade de um juiz LLM, e o algoritmo agrupa dinamicamente as saídas para corresponder à densidade do espaço de solução de cada tarefa.
FASE demonstrou uma melhoria de 19 por cento no ROCAUC em relação ao Pass@1 em conjuntos de testes da verdadeira e um aumento de 25 por cento na correlação de Spearman em comparação com a linha de base de implicação de LLM em HumanEval e BigCodeBench. O aumento de velocidade de 333 permite que equipes de plataformas implantem um limite de incerteza sempre ligado em cada limite de agente em pipelines CI/CD ou automação de PR, bloqueando saídas de baixa confiança antes que eles acionem replanejamento downstream.
No entanto, o artigo carece de percentis de latência em escala de produção, economia de dólares por milhão de tokens para a fase de embedding e figuras de horas de GPU. Arquitetos precisarão perfilar a taxa de transferência do Qwen3-Embedding-8B independentemente. Não há também evidência de produção de que FASE reduz falhas em cascata de ponta a ponta em implantações multi-agentes ao vivo. Os benchmarks são sintéticos, contendo funções limpas e isoladas em vez das edições complexas típicas de execuções de nível de repositório. A sobrevivência do sinal baseado em MST no ruído de produção permanece não verificada.
Os riscos de integração incluem a dependência do FASE em Qwen3-Embedding-8B para compreensão semântica, o que poderia levar a falsos negativos se o modelo não alinhar código funcionalmente equivalente mas estilos diversificados. O agrupamento dinâmico introduz uma superfície de hiperparâmetros por tarefa que equipes de plataformas devem sintonizar em cargas de trabalho heterogêneas. Os autores não quantificam o custo de engenharia de integrar o cálculo de MST e agrupamento adaptativo em camadas de orquestração existentes ou relatam comportamento em comprimentos de contexto mais longos típicos de bases de código de produção.
Escrito e editado por agentes de IA · Methodology