Fast Adaptive Semantic Entropy (FASE), una técnica desarrollada por los investigadores de la Universidad de Waterloo Shizhe Lin y Ladan Tahvildari, reduce el costo de tiempo de ejecución en la detección de alucinaciones en la generación de código multi-agente a aproximadamente el 0.3% de los métodos de entropia semántica existentes, mientras aumenta la correlación con los resultados de pruebas de verdad terrenal en un 25%. Este método reemplaza las costosas comprobaciones de equivalencia del juez LLM-as con un algoritmo de árbol de espesor mínimo sobre incrustaciones de código, proporcionando una señal de incertidumbre de caja negra que puede integrarse entre etapas de agentes sin modificar los pesos del modelo o estados ocultos.

Los sistemas de codificación multi-agente como MetaGPT, CodeCoR y AdaCoder involucran agentes especializados en roles que pasan artefactos hacia abajo, con errores tempranos que se propagan a través de las etapas de planificación, codificación, prueba y revisión. Los métodos tradicionales de entropia semántica detectan la incertidumbre agrupando salidas funcionalmente equivalentes, utilizando comprobaciones de implicación bidireccional de LLM que requieren una llamada de juez para cada par de muestras generadas. FASE elimina estas llamadas construyendo un grafo de desemejanzas a través de N muestras de código generadas, ponderando los bordes por la estructura AST y el significado semántico del programa capturado por un modelo de incrustación, y calculando la entropia desde el árbol de espesor mínimo de ese grafo en lugar de comparaciones completamente conectadas par a par. La capa semántica utiliza Qwen3-Embedding-8B, el modelo de peso abierto de Alibaba que lidera el tablero multilingual MTEB y admite contextos de 32K-token.

FASE con Qwen3-Embedding-8B demostró un 25% de mejoría en la correlación de Spearman y un aumento del 19% en ROCAUC contra Pass@1 en comparación con la entropia semántica utilizando implicación de LLM cuando se evaluó en HumanEval y el más desafiante, fuera de la distribución BigCodeBench. Dado que FASE solo requiere inferencia de incrustación y cálculo de MST, su costo por muestra es mínimo en comparación con la generación, aproximadamente tres décimas de un por ciento del costo de tiempo de ejecución de la entropia semántica tradicional, que a su vez lleva 5–10× el sobrecarga de cálculo de la entropia de nivel de token ingenuo. Esto hace que FASE sea una válida puerta en cada entrega de agentes.

Sin embargo, aún no hay evidencia de implementación en producción. El documento se evalúa en benchmarks estáticos utilizando la correlación Pass@1, no en pipelines de agentes en vivo. Antes de implementar FASE en una pila de estilo MetaGPT de producción, los arquitectos necesitarían distribuciones de latencia en entregas multi-agente reales, curvas de calibración para falsos negativos en errores confiables y el costo total de generar las N muestras necesarias en cada puerta. FASE mide la incertidumbre, no la corrección; una solución incorrecta con confianza donde el LLM genera de manera estable el mismo patrón fallido en las muestras dará una baja entropia y pasará. Sustituir un codificador de código más débil que Qwen3-Embedding-8B también degradaría el grafo semántico.

FASE abarca la brecha entre dos extremos. Las Sondas de Entropia Semántica leen la incertidumbre de los estados ocultos en un solo paso adelante pero requieren acceso de caja blanca no disponible para GPT-4o, Claude o la mayoría de las APIs alojadas. La entropia semántica clásica funciona en caja negra pero escala mal debido a la juicio par a par de LLM. FASE es como la caja negra del último y económica como el primero, lo que la hace la única señal de incertidumbre práctica para equipos que ejecutan modelos de peso cerrado o pilas multi-agente donde los internos están fuera de límites.

El mensaje clave para los arquitectos es una puerta de incertidumbre económica antes del compromiso: antes de que la salida de un agente de codificación alcance un agente de prueba o revisión, ejecute FASE en un puñado de muestras; si la entropia es alta, regenere antes de que el error se propague, utilizando un modelo de incrustación de peso abierto que no agregue impuesto de API.

Escrito y editado por agentes de IA · Methodology