FASE Reduce la Detección de Alucinaciones a una Velocidad de 333x

FASE, un método innovador de cuantificación de incertidumbre para la generación de código multi-agente, reduce el tiempo de detección de alucinaciones al 0.3 por ciento de las bases de referencia actuales de implicaciones de LLM y mejora la correlación de Spearman en un 25 por ciento. Este método ofrece a los arquitectos una puerta de calidad de candidato para entregas de agentes sin requerir casos de prueba de verdad terrenal. Investigadores de la Universidad de Waterloo enviaron sus hallazgos a las ACM Transactions on Software Engineering and Methodology, abordando un modo de fallo en marcos como MetaGPT, CodeCoR y AdaCoder, donde un plan o fragmento de código alucinado puede propagarse a través de agentes descendentes, desperdiciando llamadas de inferencia.

El método de detección de vanguardia, siguiendo el protocolo de entropia semántica de Farquhar et al. de 2024, utiliza un potente LLM para comprobar implicaciones bidireccionales en salidas muestreadas. Este enfoque es preciso pero consume tokens de inferencia auto-regressiva en cada candidato, haciéndolo impráctico para las líneas de producción de software autónomo. La entropia estructural de Song et al. de 2025 reduce costos analizando la sintaxis del código pero pierde equivalencias semánticas. FASE combina ambos enfoques construyendo un árbol generador mínimo sobre un grafo de desemejanza que mezcla distancias estructurales y semánticas. Los bordes semánticas se calculan con Qwen3-Embedding-8B, evitando la necesidad de un juez LLM, y el algoritmo agrupa dinámicamente las salidas para coincidir con la densidad del espacio de soluciones de cada tarea.

FASE demostró una mejora del 19 por ciento en ROCAUC sobre Pass@1 frente a conjuntos de pruebas de verdad terrenal y un aumento del 25 por ciento en la correlación de Spearman en comparación con la base de referencia de implicaciones de LLM en HumanEval y BigCodeBench. La aceleración de 333 veces permite que los equipos de plataformas implementen una puerta de incertidumbre siempre activa en cada límite de agente en las líneas de producción CI/CD o de automatización de PR, bloqueando salidas de baja confianza antes de que desencadenen reprocesamiento descendente.

Sin embargo, el documento carece de percentiles de latencia a escala de producción, economía de dólares por millón de tokens para la etapa de incrustación y cifras de horas de GPU. Los arquitectos deberán perfilar la capacidad de Qwen3-Embedding-8B de forma independiente. Tampoco hay evidencia de producción de que FASE reduzca fallos en cascada de extremo a extremo en implementaciones multi-agente en vivo. Los puntos de referencia son sintéticos, conteniendo funciones limpas y aisladas en lugar de las ediciones complejas típicas de las ejecuciones de agentes a nivel de repositorio real. La supervivencia del señal basada en MST en el ruido de producción sigue sin verificarse.

Los riesgos de integración incluyen la dependencia de FASE en Qwen3-Embedding-8B para la comprensión semántica, lo que podría llevar a falsos negativos si el modelo no se alinea con códigos funcionalmente equivalentes pero estilísticamente divergentes. El agrupamiento dinámico introduce una superficie de hiperparámetros por tarea que los equipos de plataformas deben sintonizar en cargas de trabajo heterogéneas. Los autores no cuantifican el costo de ingeniería de integrar el cómputo MST y el agrupamiento adaptativo en capas de orquestración existentes ni informan sobre el comportamiento en longitudes de contexto más largas típicas de las bases de código de producción.

Sources

FASE achieves 25% average improvement in Spearman correlation and 19% increase in ROCAUC score vs. LLM-entailment semantic entropy baseline, at only 0.3% of the runtime cost
"achieving a 25% average improvement in Spearman correlation and a 19% increase in ROCAUC score against Pass@1 from ground-truth test cases when using the Qwen3-Embedding-8B model... requiring only approximately 0.3% of the runtime cost of traditional semantic entropy approaches"
arxiv.org ↗
FASE uses the minimum spanning tree of structural and semantic dissimilarity graphs to approximate functional correctness without ground-truth labels
"a novel metric that approximates functional correctness based on the minimum spanning tree of structural and semantic dissimilarity graphs"
arxiv.org ↗
Multi-agent code generation systems like MetaGPT, CodeCoR, and AdaCoder decompose software dev into specialized agents; hallucination in early agents cascades to downstream agents
"Errors produced during early stages of reasoning or implementation can propagate across agents, leading to cascading failures throughout the development pipeline"
arxiv.org ↗
Semantic entropy (Farquhar et al., 2024) relies on bidirectional LLM entailment checks, limiting scalability; structural entropy (Song et al., 2025) misses semantic equivalences
"Semantic entropy (Farquhar et al., 2024) measures uncertainty by grouping outputs according to functional equivalence rather than textual similarity, but it requires bidirectional entailment checks using LLMs, which limits scalability in practical multi-agent systems... structural similarity alone cannot fully capture program semantics, as functionally equivalent solutions may have different structures while structurally similar code may still exhibit different behaviours"
arxiv.org ↗
FASE was evaluated on HumanEval and BigCodeBench benchmarks using Qwen3-Embedding-8B for semantic dissimilarity
"Evaluations on HumanEval and BigCodeBench demonstrate that FASE outperforms state-of-the-art semantic entropy by LLM entailment"
arxiv.org ↗
UQ methods quantify degree of certainty rather than binary hallucination detection, and epistemic uncertainty is closely tied to LLM hallucination
"UQ is not limited to a binary decision of whether an output is hallucinated or not. Moreover, it quantifies the degree of certainty associated with each response, providing a finer-grained signal of trustworthiness... epistemic uncertainty is closely tied to hallucination in LLMs: when the model is forced to generate outputs in areas where it lacks sufficient knowledge, it is more likely to produce unsupported or fabricated content"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

FASE Reduce la Detección de Alucinaciones a una Velocidad de 333x

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.