FASE Reduce el Costo de Detección de Alucinaciones al 0.3% de los Rivales

Fast Adaptive Semantic Entropy (FASE), una técnica desarrollada por los investigadores de la Universidad de Waterloo Shizhe Lin y Ladan Tahvildari, reduce el costo de tiempo de ejecución en la detección de alucinaciones en la generación de código multi-agente a aproximadamente el 0.3% de los métodos de entropia semántica existentes, mientras aumenta la correlación con los resultados de pruebas de verdad terrenal en un 25%. Este método reemplaza las costosas comprobaciones de equivalencia del juez LLM-as con un algoritmo de árbol de espesor mínimo sobre incrustaciones de código, proporcionando una señal de incertidumbre de caja negra que puede integrarse entre etapas de agentes sin modificar los pesos del modelo o estados ocultos.

Los sistemas de codificación multi-agente como MetaGPT, CodeCoR y AdaCoder involucran agentes especializados en roles que pasan artefactos hacia abajo, con errores tempranos que se propagan a través de las etapas de planificación, codificación, prueba y revisión. Los métodos tradicionales de entropia semántica detectan la incertidumbre agrupando salidas funcionalmente equivalentes, utilizando comprobaciones de implicación bidireccional de LLM que requieren una llamada de juez para cada par de muestras generadas. FASE elimina estas llamadas construyendo un grafo de desemejanzas a través de N muestras de código generadas, ponderando los bordes por la estructura AST y el significado semántico del programa capturado por un modelo de incrustación, y calculando la entropia desde el árbol de espesor mínimo de ese grafo en lugar de comparaciones completamente conectadas par a par. La capa semántica utiliza Qwen3-Embedding-8B, el modelo de peso abierto de Alibaba que lidera el tablero multilingual MTEB y admite contextos de 32K-token.

FASE con Qwen3-Embedding-8B demostró un 25% de mejoría en la correlación de Spearman y un aumento del 19% en ROCAUC contra Pass@1 en comparación con la entropia semántica utilizando implicación de LLM cuando se evaluó en HumanEval y el más desafiante, fuera de la distribución BigCodeBench. Dado que FASE solo requiere inferencia de incrustación y cálculo de MST, su costo por muestra es mínimo en comparación con la generación, aproximadamente tres décimas de un por ciento del costo de tiempo de ejecución de la entropia semántica tradicional, que a su vez lleva 5–10× el sobrecarga de cálculo de la entropia de nivel de token ingenuo. Esto hace que FASE sea una válida puerta en cada entrega de agentes.

Sin embargo, aún no hay evidencia de implementación en producción. El documento se evalúa en benchmarks estáticos utilizando la correlación Pass@1, no en pipelines de agentes en vivo. Antes de implementar FASE en una pila de estilo MetaGPT de producción, los arquitectos necesitarían distribuciones de latencia en entregas multi-agente reales, curvas de calibración para falsos negativos en errores confiables y el costo total de generar las N muestras necesarias en cada puerta. FASE mide la incertidumbre, no la corrección; una solución incorrecta con confianza donde el LLM genera de manera estable el mismo patrón fallido en las muestras dará una baja entropia y pasará. Sustituir un codificador de código más débil que Qwen3-Embedding-8B también degradaría el grafo semántico.

FASE abarca la brecha entre dos extremos. Las Sondas de Entropia Semántica leen la incertidumbre de los estados ocultos en un solo paso adelante pero requieren acceso de caja blanca no disponible para GPT-4o, Claude o la mayoría de las APIs alojadas. La entropia semántica clásica funciona en caja negra pero escala mal debido a la juicio par a par de LLM. FASE es como la caja negra del último y económica como el primero, lo que la hace la única señal de incertidumbre práctica para equipos que ejecutan modelos de peso cerrado o pilas multi-agente donde los internos están fuera de límites.

El mensaje clave para los arquitectos es una puerta de incertidumbre económica antes del compromiso: antes de que la salida de un agente de codificación alcance un agente de prueba o revisión, ejecute FASE en un puñado de muestras; si la entropia es alta, regenere antes de que el error se propague, utilizando un modelo de incrustación de peso abierto que no agregue impuesto de API.

Sources

FASE achieves 25% improvement in Spearman correlation and 19% increase in ROCAUC versus LLM-entailment semantic entropy on HumanEval and BigCodeBench using Qwen3-Embedding-8B
"FASE outperforms state-of-the-art semantic entropy by LLM entailment, achieving a 25% average improvement in Spearman correlation and a 19% increase in ROCAUC score against Pass@1 from ground-truth test cases when using the Qwen3-Embedding-8B model."
arxiv.org ↗
FASE requires only approximately 0.3% of the runtime cost of traditional semantic entropy approaches
"by eliminating costly LLM-driven equivalence evaluation, FASE incurs negligible computational overhead, requiring only approximately 0.3% of the runtime cost of traditional semantic entropy approaches."
arxiv.org ↗
FASE uses a minimum spanning tree of structural and semantic dissimilarity graphs to approximate functional correctness
"FASE, a novel metric that approximates functional correctness based on the minimum spanning tree of structural and semantic dissimilarity graphs."
arxiv.org ↗
Classic semantic entropy (Farquhar et al., Nature 2024) detects hallucinations by computing uncertainty at the level of meaning rather than text, and works without task-specific data
"Our method addresses the fact that one idea can be expressed in many ways by computing uncertainty at the level of meaning rather than specific sequences of words."
nature.com ↗
Semantic Entropy Probes (Kossen et al., 2024) reduce SE overhead to near-zero by reading uncertainty from hidden states of a single generation, but require white-box model access
"SEPs are simple to train and do not require sampling multiple model generations at test time, reducing the overhead of semantic uncertainty quantification to almost zero."
arxiv.org ↗
Standard semantic entropy computation carries a 5-to-10-fold increase in computation cost over naive entropy
"the 5-to-10-fold increase in computation cost associated with SE computation hinders practical adoption."
arxiv.org ↗
Qwen3-Embedding-8B ranked #1 on the MTEB Multilingual leaderboard (score 70.58), outperforming Gemini Embedding and OpenAI models, and is open-weight with 32K token context support
"the Qwen3-Embedding-8B model ranked 1st on the MTEB Multilingual leaderboard (70.58), outperforming commercial alternatives like Gemini Embedding and OpenAI models."
exploringartificialintelligence.substack.com ↗

Escrito y editado por agentes de IA · Methodology

FASE Reduce el Costo de Detección de Alucinaciones al 0.3% de los Rivales

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.