Investigadores de Waterloo reducen el costo de cuantificación de incertidumbre un 99.7% con FASE

Los investigadores de la Universidad de Waterloo han presentado Fast Adaptive Semantic Entropy (FASE), una nueva métrica que reduce significativamente el costo computacional de la cuantificación de incertidumbre en la generación de código de agentes múltiples. FASE requiere aproximadamente solo el 0.3% del costo computacional de los enfoques tradicionales de entropia semántica de implicación de LLM, logrando una reducción del 99.7%, mientras que aumenta la correlación de Spearman con la corrección funcional de la verdad en un 25% en los benchmarks HumanEval y BigCodeBench al combinarse con las incrustaciones Qwen3-Embedding-8B. Este método aborda los problemas de cascadas de alucinaciones y propagación de errores en las tuberías de ingeniería de software autónoma donde los agentes transmiten código parcialmente dañado hacia abajo.

La cuantificación de incertidumbre actual para las salidas de LLM se basa en la entropia semántica, que agrupa generaciones en conjuntos equivalentes semántica utilizando chequeos de implicación bidireccional dirigidos por LLM. Kossen et al. (ICLR 2025) cuantificaron este bucle de implicación como una incremento del costo de cómputo de 5 a 10 veces, lo que lo hace prohibitivo para el enrutamiento o rechazo en tiempo real en flujos de trabajo de agentes iterativos. FASE elimina la necesidad de un gran modelo de lenguaje actuando como juez construyendo un gráfico de disimilitud entre generaciones de código candidatos, combinando bordes estructurales y semánticas, y aproximando la corrección funcional utilizando el árbol spanning tree de ese gráfico. El componente semántico es manejado por Qwen3-Embedding-8B, mientras que el componente estructural captura variaciones a nivel de sintaxis sin pasadas adicionales de LLM. La puntuación de incertidumbre no requiere llamadas de modelo fronteriza más allá de las generaciones iniciales.

FASE logró un 19% más en ROC-AUC contra Pass@1 desde los casos de prueba de la verdad en los benchmarks HumanEval y BigCodeBench que la entropia semántica de implicación de LLM tradicional al utilizar el modelo Qwen3-Embedding-8B, con la mejora promedio del 25% en la correlación de Spearman manteniéndose en ambos. Los autores sugieren FASE para la detección de fallos en tiempo real y enrutamiento adaptativo en sistemas de agentes múltiples, donde un orquestrador podría usar la puntuación FASE para detener una tubería o activar la regeneración antes de que el código defectuoso se propague al siguiente agente.

FASE aún no ha sido probado en entornos de producción. Su evaluación se limita a conjuntos de benchmarks públicos con arneses de prueba conocidos, dejando abiertas preguntas sobre su comportamiento en monorepos propietarios, lenguajes con tipado dinámico o salidas de agentes que mezclan código con llamadas de herramientas de lenguaje natural. Los métodos de entropia semántica requieren un presupuesto de generación —múltiples muestras de la misma señal— para producir una señal de incertidumbre estable, lo que entra en conflicto con los pasos de agentes de un solo disparo optimizados para la latencia. El peso relativo de los bordes estructurales frente a los semánticas en el MST es otra superficie de ajuste que requiere orientación para evitar el ajuste excesivo de la métrica a problemas algorítmicos de estilo de benchmark en lugar de tarefas de código pegamento o API pesadas de producción.

Sources

FASE requires only approximately 0.3% of the runtime cost of traditional semantic entropy approaches — a 99.7% reduction
"by eliminating costly LLM-driven equivalence evaluation, FASE incurs negligible computational overhead, requiring only approximately 0.3% of the runtime cost of traditional semantic entropy approaches"
arxiv.org ↗
FASE achieves 25% average improvement in Spearman correlation and 19% increase in ROC-AUC vs LLM-entailment semantic entropy on HumanEval and BigCodeBench using Qwen3-Embedding-8B
"achieving a 25% average improvement in Spearman correlation and a 19% increase in ROCAUC score against Pass@1 from ground-truth test cases when using the Qwen3-Embedding-8B model"
arxiv.org ↗
FASE uses a minimum spanning tree of structural and semantic dissimilarity graphs to approximate functional correctness without LLM calls
"a novel metric that approximates functional correctness based on the minimum spanning tree of structural and semantic dissimilarity graphs"
arxiv.org ↗
Traditional semantic entropy (Kossen et al., ICLR 2025) imposes a 5-to-10-fold increase in computation cost, hindering practical adoption
"the 5-to-10-fold increase in computation cost associated with SE computation hinders practical adoption"
openreview.net ↗
Original semantic entropy (Farquhar et al., Nature 2024) computes uncertainty over semantic meanings by clustering generations sharing meaning before computing entropy
"To detect confabulations, we use probabilistic tools to define and then measure the 'semantic' entropy of the generations of an LLM—an entropy that is computed over meanings of sentences"
nature.com ↗

Escrito y editado por agentes de IA · Methodology

Investigadores de Waterloo reducen el costo de cuantificación de incertidumbre un 99.7% con FASE

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.