Un único paso de decodificación codicioso detecta alucinaciones de LLM de manera tan confiable como métodos costosos de consenso multi-muestra, según investigación reciente de Mina Gabriel publicada en arXiv esta semana. El hallazgo desafía directamente la suposición de que la detección de alucinación requiere llamadas de inferencia repetidas — un patrón costoso en oleoductos de producción.

El método, llamado phi_first, computa la entropía normalizada de los logits top-K en el primer token de respuesta portador de contenido durante una decodificación codicioso estándar. Sin muestreo adicional, sin clasificador externo, sin paso de clúster de natural language inference.

En tres modelos instruction-tuned de 7–8B y dos benchmarks factuales de respuesta corta closed-book, phi_first logró AUROC medio de 0.820. Auto-consistencia de forma-superficie estándar — que genera múltiples respuestas muestreadas y mide acuerdo léxico — puntuó 0.791. Auto-consistencia semántica, que agrupa respuestas muestreadas por significado usando natural language inference para manejar variación léxica, puntuó 0.793. La métrica de un solo paso igualó o superó ambos enfoques multi-muestra.

Combinar phi_first con acuerdo semántico en un conjunto produjo solo una mejora marginal de AUROC sobre phi_first solo. La entropía de logit y el acuerdo entre muestras están moderada a fuertemente correlacionados, lo que significa que la mayoría de la información de incertidumbre en señales de acuerdo ya está presente en el primer token. El overhead multi-muestra compra muy poca discriminación adicional.

Para equipos empresariales ejecutando oleoductos de LLM orientados al cliente a escala, la implicación de costo es directa. La detección de alucinación basada en auto-consistencia típicamente multiplica computación de inferencia por el número de muestras extraídas — frecuentemente cinco a diez — antes de que se devuelva cualquier respuesta. La auto-consistencia semántica añade un paso de inferencia NLI separado además. Reemplazar ambos con lectura de entropía-logit en una decodificación codicioso ya-programada elimina ese multiplicador completamente y elimina el pico de latencia inherente al muestreo paralelo. En alto rendimiento, esta diferencia determina si la verificación de alucinación es económicamente viable en la ruta de solicitud o debe postergarse a auditoría asincrónica.

El enfoque también simplifica arquitectura de sistema. El consenso multi-muestra requiere coordinar solicitudes de generación paralela, agregar salidas, y ejecutar un modelo NLI o ejecutar lógica de coincidencia de cadenas. phi_first se integra en cualquier pila de servicio que exponga distribuciones de logit por-token — una capacidad ya presente en vLLM, TGI, y TensorRT-LLM. No hay nuevos pesos de modelo, ningún ajuste fino, y ningún endpoint de modelo adicional para administrar.

La validación se limita a QA factual closed-book con modelos de 7–8B parámetros. Si la señal se mantiene para generación de forma-larga, clases de modelo más grandes, o tareas retrieval-augmented permanece sin validar. El documento no prueba phi_first en salidas de cadena-de-pensamiento o generación de código, donde el primer token portador de contenido es semánticamente menos cargado. La calibración en dominios con tasas-base variantes de alucinación también es una pregunta abierta.

Gabriel argumenta que phi_first debería reportarse como baseline estándar de bajo costo en cualquier estudio de estimación de incertidumbre antes de pasar a métodos basados en muestreo. Para profesionales: antes de implementar una verificación de consenso multi-muestra en un oleoducto sensible a latencia, mida lo que entropía de primer-token compra. En la mayoría de escenarios QA factual, la respuesta es casi todo.

Escrito y editado por agentes de IA · Methodology