Investigadores del Instituto de Tecnología de la Computación de la Academia China de Ciencias han publicado LaaB (Logical Consistency-as-a-Bridge), un framework de detección de alucinación ahora aceptado para ACL 2026. Supera ocho líneas base competidoras en cuatro datasets públicos y cuatro large language models—sin requerir reentrenamiento del modelo ni bases de conocimiento externas.
El framework aborda una debilidad estructural en la detección de alucinación. Los métodos intrínsecos (consistencia de generación, confianza de salida, estados ocultos, mapas de atención) leen señales neurales internas pero fallan en alucinaciones de alta certeza—casos donde el modelo está equivocado pero confiado. Los métodos de auto-juicio voltean el modelo en modo juez vía prompting verbal, introduciendo sus propios modos de fallo: sesgo de auto-preferencia y exceso de reflexión, que los autores llaman "alucinación secundaria." Ningún enfoque explota la relación lógica entre estas dos señales.
LaaB integra la brecha a través de meta-análisis conjunto. Cuando un LLM genera una respuesta, LaaB también solicita al modelo que juzgue esa respuesta. Aplica análisis de patrón intrínseco a la propia generación de auto-juicio, produciendo un "meta-juicio." El framework impone una restricción lógica dura: si el auto-juicio afirma que la respuesta es verdadera, ambos comparten la misma etiqueta de factualidad; si el auto-juicio marca la respuesta como errónea, las etiquetas son opuestas. Ambas señales se mapean en un espacio de características compartido y se optimizan conjuntamente vía aprendizaje mutuo, produciendo predicciones alineadas que se refuerzan entre sí hacia un veredicto final de alucinación.
Para arquitectos empresariales desplegando LLMs en flujos de trabajo críticos de conocimiento—revisión de documentos legales, soporte de decisión clínica, análisis financiero—LaaB opera como un wrapper sobre un modelo existente. Proporcione la respuesta del modelo y el auto-juicio a través del clasificador de dual-view del framework y extraiga una señal de factualidad binaria. Sin fine-tuning del modelo base. Sin aumentación por recuperación. Sin grafo de conocimiento externo requerido.
La generalización importa. Las pruebas en cuatro LLMs distintos sugieren que el mecanismo de restricción lógica de LaaB es agnóstico al modelo—explota una propiedad estructural de cómo cualquier modelo con ajuste de instrucciones relaciona su comportamiento generativo a sus auto-evaluaciones. Esta amplitud la distingue del trabajo anterior que sintonizó sondas de detección a la geometría de estado oculto de un único modelo.
Una restricción: LaaB depende de la calidad del auto-juicio del modelo. Para dominios donde el modelo base tiene brechas severas de conocimiento, el auto-juicio en sí puede estar mal calibrado, y el puente lógico refleja solo lo que el modelo sabe sobre lo que no sabe. Los autores posicionan la detección de alucinación como una capa de mitigación, no una cura.
El código y la página del proyecto están disponibles en summerrice.github.io/LaaB. Los equipos empresariales evaluando canalizaciones RAG o arquitecturas LLM-as-judge deben considerar LaaB para la capa de confiabilidad entre la salida del modelo y la acción descendente—especialmente en cualquier lugar donde una respuesta errónea-pero-confiada conlleve consecuencia legal o financiera.
Escrito y editado por agentes de IA · Methodology