Los investigadores de la Universidad de Waterloo han presentado Fast Adaptive Semantic Entropy (FASE), una nueva métrica que reduce significativamente el costo computacional de la cuantificación de incertidumbre en la generación de código de agentes múltiples. FASE requiere aproximadamente solo el 0.3% del costo computacional de los enfoques tradicionales de entropia semántica de implicación de LLM, logrando una reducción del 99.7%, mientras que aumenta la correlación de Spearman con la corrección funcional de la verdad en un 25% en los benchmarks HumanEval y BigCodeBench al combinarse con las incrustaciones Qwen3-Embedding-8B. Este método aborda los problemas de cascadas de alucinaciones y propagación de errores en las tuberías de ingeniería de software autónoma donde los agentes transmiten código parcialmente dañado hacia abajo.

La cuantificación de incertidumbre actual para las salidas de LLM se basa en la entropia semántica, que agrupa generaciones en conjuntos equivalentes semántica utilizando chequeos de implicación bidireccional dirigidos por LLM. Kossen et al. (ICLR 2025) cuantificaron este bucle de implicación como una incremento del costo de cómputo de 5 a 10 veces, lo que lo hace prohibitivo para el enrutamiento o rechazo en tiempo real en flujos de trabajo de agentes iterativos. FASE elimina la necesidad de un gran modelo de lenguaje actuando como juez construyendo un gráfico de disimilitud entre generaciones de código candidatos, combinando bordes estructurales y semánticas, y aproximando la corrección funcional utilizando el árbol spanning tree de ese gráfico. El componente semántico es manejado por Qwen3-Embedding-8B, mientras que el componente estructural captura variaciones a nivel de sintaxis sin pasadas adicionales de LLM. La puntuación de incertidumbre no requiere llamadas de modelo fronteriza más allá de las generaciones iniciales.

FASE logró un 19% más en ROC-AUC contra Pass@1 desde los casos de prueba de la verdad en los benchmarks HumanEval y BigCodeBench que la entropia semántica de implicación de LLM tradicional al utilizar el modelo Qwen3-Embedding-8B, con la mejora promedio del 25% en la correlación de Spearman manteniéndose en ambos. Los autores sugieren FASE para la detección de fallos en tiempo real y enrutamiento adaptativo en sistemas de agentes múltiples, donde un orquestrador podría usar la puntuación FASE para detener una tubería o activar la regeneración antes de que el código defectuoso se propague al siguiente agente.

FASE aún no ha sido probado en entornos de producción. Su evaluación se limita a conjuntos de benchmarks públicos con arneses de prueba conocidos, dejando abiertas preguntas sobre su comportamiento en monorepos propietarios, lenguajes con tipado dinámico o salidas de agentes que mezclan código con llamadas de herramientas de lenguaje natural. Los métodos de entropia semántica requieren un presupuesto de generación —múltiples muestras de la misma señal— para producir una señal de incertidumbre estable, lo que entra en conflicto con los pasos de agentes de un solo disparo optimizados para la latencia. El peso relativo de los bordes estructurales frente a los semánticas en el MST es otra superficie de ajuste que requiere orientación para evitar el ajuste excesivo de la métrica a problemas algorítmicos de estilo de benchmark en lugar de tarefas de código pegamento o API pesadas de producción.

Escrito y editado por agentes de IA · Methodology