Entropía del Primer Token Rivaliza Detección de Alucinación Multi-Muestra

Investigadores muestran que la detección de alucinación puede realizarse usando solo el puntaje de confianza del primer token (entropía de logits top-K), eliminando la necesidad de verificación de consenso multi-muestra costosa. El método de un solo paso reduce costo de inferencia y latencia para sistemas en producción mientras mantiene poder de discriminación.

Un único paso de decodificación codicioso detecta alucinaciones de LLM de manera tan confiable como métodos costosos de consenso multi-muestra, según investigación reciente de Mina Gabriel publicada en arXiv esta semana. El hallazgo desafía directamente la suposición de que la detección de alucinación requiere llamadas de inferencia repetidas — un patrón costoso en oleoductos de producción.

El método, llamado phi_first, computa la entropía normalizada de los logits top-K en el primer token de respuesta portador de contenido durante una decodificación codicioso estándar. Sin muestreo adicional, sin clasificador externo, sin paso de clúster de natural language inference.

En tres modelos instruction-tuned de 7–8B y dos benchmarks factuales de respuesta corta closed-book, phi_first logró AUROC medio de 0.820. Auto-consistencia de forma-superficie estándar — que genera múltiples respuestas muestreadas y mide acuerdo léxico — puntuó 0.791. Auto-consistencia semántica, que agrupa respuestas muestreadas por significado usando natural language inference para manejar variación léxica, puntuó 0.793. La métrica de un solo paso igualó o superó ambos enfoques multi-muestra.

Combinar phi_first con acuerdo semántico en un conjunto produjo solo una mejora marginal de AUROC sobre phi_first solo. La entropía de logit y el acuerdo entre muestras están moderada a fuertemente correlacionados, lo que significa que la mayoría de la información de incertidumbre en señales de acuerdo ya está presente en el primer token. El overhead multi-muestra compra muy poca discriminación adicional.

Para equipos empresariales ejecutando oleoductos de LLM orientados al cliente a escala, la implicación de costo es directa. La detección de alucinación basada en auto-consistencia típicamente multiplica computación de inferencia por el número de muestras extraídas — frecuentemente cinco a diez — antes de que se devuelva cualquier respuesta. La auto-consistencia semántica añade un paso de inferencia NLI separado además. Reemplazar ambos con lectura de entropía-logit en una decodificación codicioso ya-programada elimina ese multiplicador completamente y elimina el pico de latencia inherente al muestreo paralelo. En alto rendimiento, esta diferencia determina si la verificación de alucinación es económicamente viable en la ruta de solicitud o debe postergarse a auditoría asincrónica.

El enfoque también simplifica arquitectura de sistema. El consenso multi-muestra requiere coordinar solicitudes de generación paralela, agregar salidas, y ejecutar un modelo NLI o ejecutar lógica de coincidencia de cadenas. phi_first se integra en cualquier pila de servicio que exponga distribuciones de logit por-token — una capacidad ya presente en vLLM, TGI, y TensorRT-LLM. No hay nuevos pesos de modelo, ningún ajuste fino, y ningún endpoint de modelo adicional para administrar.

La validación se limita a QA factual closed-book con modelos de 7–8B parámetros. Si la señal se mantiene para generación de forma-larga, clases de modelo más grandes, o tareas retrieval-augmented permanece sin validar. El documento no prueba phi_first en salidas de cadena-de-pensamiento o generación de código, donde el primer token portador de contenido es semánticamente menos cargado. La calibración en dominios con tasas-base variantes de alucinación también es una pregunta abierta.

Gabriel argumenta que phi_first debería reportarse como baseline estándar de bajo costo en cualquier estudio de estimación de incertidumbre antes de pasar a métodos basados en muestreo. Para profesionales: antes de implementar una verificación de consenso multi-muestra en un oleoducto sensible a latencia, mida lo que entropía de primer-token compra. En la mayoría de escenarios QA factual, la respuesta es casi todo.

Sources

phi_first achieves a mean AUROC of 0.820 across three 7-8B instruction-tuned models and two benchmarks
"phi_first achieves a mean AUROC of 0.820, compared with 0.793 for semantic agreement and 0.791 for standard surface-form self-consistency"
arxiv.org ↗
Semantic self-consistency scored 0.793 AUROC; standard surface-form self-consistency scored 0.791
"phi_first achieves a mean AUROC of 0.820, compared with 0.793 for semantic agreement and 0.791 for standard surface-form self-consistency"
arxiv.org ↗
phi_first is computed from the normalized entropy of the top-K logits at the first content-bearing answer token of a single greedy decode
"first-token confidence, phi_first, computed from the normalized entropy of the top-K logits at the first content-bearing answer token of a single greedy decode"
arxiv.org ↗
Combining phi_first with semantic agreement yields only a small AUROC improvement over phi_first alone
"combining the two signals yields only a small AUROC improvement over phi_first alone"
arxiv.org ↗
phi_first is moderately to strongly correlated with semantic agreement, per a subsumption test
"A subsumption test shows that phi_first is moderately to strongly correlated with semantic agreement"
arxiv.org ↗
Much of the uncertainty information in multi-sample agreement is already available in the model's initial token distribution
"much of the uncertainty information captured by multi-sample agreement is already available in the model's initial token distribution"
arxiv.org ↗
The paper argues phi_first should be the default low-cost baseline before invoking sampling-based uncertainty estimation
"We argue that phi_first should be reported as a default low-cost baseline before invoking sampling-based uncertainty estimation"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Entropía del Primer Token Rivaliza Detección de Alucinación Multi-Muestra

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.