Pesquisadores da Universidade de Waterloo introduziram o Fast Adaptive Semantic Entropy (FASE), uma nova métrica que reduz significativamente o custo computacional da quantificação de incerteza na geração de código multi-agente. O FASE requer aproximadamente apenas 0,3% do custo computacional das abordagens tradicionais de entropia semântica de implicação LLM, alcançando uma redução de 99,7%, enquanto aumenta a correlação de Spearman com a correção funcional de verdade-terreno em 25% nos benchmarks HumanEval e BigCodeBench quando emparelhado com as embeddings Qwen3-Embedding-8B. Este método aborda os problemas das cascatas de alucinações e propagação de erros em pipelines de engenharia de software autônomo, onde agentes transmitem código parcialmente quebrado para baixo.

A quantificação de incerteza atual para saídas de LLM depende da entropia semântica, que agrupa gerações em conjuntos equivalentes semanticamente usando verificações de implicação bidirecional direcionadas por LLM. Kossen et al. (ICLR 2025) quantificou esse ciclo de implicação como impostando um aumento de 5 a 10 vezes no custo de computação, tornando-o proibitivo para roteamento em tempo real ou rejeição em fluxos de trabalho multi-agente iterativos. O FASE elimina a necessidade de um grande modelo de linguagem atuando como juiz ao construir um gráfico de dissimilaridade entre as gerações de código candidatos, combinando arestas estruturais e semânticas, e aproximando a correção funcional usando a árvore geradora mínima desse gráfico. O componente semântico é tratado por Qwen3-Embedding-8B, enquanto o componente estrutural captura variação no nível da sintaxe sem passagens adicionais de LLM. A pontuação de incerteza não requer chamadas de modelo de fronteira além das gerações iniciais.

O FASE alcançou um ROC-AUC 19% superior ao Pass@1 a partir de casos de teste de verdade-terreno do que a entropia semântica de implicação LLM tradicional nos benchmarks HumanEval e BigCodeBench ao usar o modelo Qwen3-Embedding-8B, com a melhoria média da correlação de Spearman de 25% mantida em ambos. Os autores sugerem o FASE para detecção de falhas em tempo real e roteamento adaptativo em sistemas multi-agente, onde um orquestrador pode usar a pontuação FASE para interromper um pipeline ou acionar a regeneração antes que o código com falhas se propague para o próximo agente.

O FASE ainda não foi testado em ambientes de produção. Sua avaliação está limitada a conjuntos de benchmarks públicos com known test harnesses, deixando abertas questões sobre seu comportamento em monorepos proprietários, linguagens dinamicamente tipadas ou saídas de agentes que misturam código com chamadas de ferramentas de linguagem natural. Os métodos de entropia semântica requerem um orçamento de geração - várias amostras da mesma solicitação - para produzir um sinal de incerteza estável, o que entra em conflito com etapas de agentes de único disparo otimizados para latência. O peso relativo das arestas estruturais versus semânticas no MST é outra superfície de ajuste que requer orientação para evitar o ajuste excessivo da métrica para problemas algorítmicos de estilo de benchmark em vez de tarefas de código de cola ou pesadas em APIs de produção.

Escrito e editado por agentes de IA · Methodology