Prueba sin etiquetas detecta mejor los fallos de razonamiento de LLM que la consistencia propia

Un nuevo preimpreso de arXiv introduce la consistencia operádica (OC) como un método sin etiquetas y en tiempo de inferencia para detectar fallos de razonamiento compuesto en grandes modelos de lenguaje (LLM). El estudio informa de correlaciones de Pearson con precisión entre 0.86 y 0.94 en cuatro conjuntos de datos de QA multi-salto, superando el umbral del 0.85 que la consistencia propia de la cadena de pensamiento (CoT-SC) no logra cumplir en la mitad de los puntos de referencia.

El mecanismo, derivado de la teoría de operados, implica una verificación de consistencia propia estructural. El modelo responde directamente a una consulta compleja, luego se descompone la misma consulta en subproblemas, se responden individualmente y se compone en un resultado final. Las discrepancias entre las dos vías marcan el razonamiento sospechoso. Los autores prueban OC en doce LLM con ajuste de instrucciones, con parámetros que van desde 4B hasta 671B, tanto de peso abierto como de código cerrado, y en cinco modelos de pensamiento fronterizo donde la descomposición se extrae automáticamente de la cadeia de pensamiento del modelo, sin requerir etiquetas de verdad o anotadores externos.

En HotpotQA y DROP, CoT-SC coincide con OC con correlaciones de 0.93 y 0.87, respectivamente. Sin embargo, en MuSiQue y StrategyQA, CoT-SC cae aproximadamente a 0.45 mientras que OC mantiene su correlación en todos los cuatro conjuntos de datos. En regresión por pregunta contra CoT-SC y entropía semántica, OC proporciona información independiente con valores p-robustos de conglomerados inferiores a 10^-16. Para predicción selectiva con un presupuesto de inferencia igual en coste K=3, OC logra mejoras de AUARC de +0.086 a +0.096 y mejoras de AUROC de +0.092 a +0.164 sobre una línea base de CoT-SC ajustada, con intervalos de confianza del 95% que excluyen cero en cada celda. En modelos de pensamiento fronterizo, las estimaciones puntuales son positivas en todas las combinaciones de conjunto de datos-presupuesto-medida probadas, aunque los intervalos de confianza superan cero solo en 12 de 16.

No hay evidencia de implementación en producción para OC. Arquitectónicamente, OC está situado entre el enrutador y el modelo: una consulta primero golpea el modelo para una respuesta directa, luego se descompone a través de la propia cadena de pensamiento del modelo o por un separador programático, se responde en subpartes y se recompone para comparación. El presupuesto igual en coste K=3 del papel implica tres pases de inferencia contra un solo decodificador ávido para lograr los mejoramientos de predicción selectiva informados. No se requiere afinamiento fino, modelo evaluador, almacén de vectores o referencia etiquetada, la señal se genera completamente a partir de las propias salidas del modelo, pero el proceso debe ser capaz de analizar, enrutar y reconciliar subrespuestas.

La fricción es la latencia real y el costo de tokens: cada verificación multiplica la sobrecarga de generación. Para modelos de pensamiento, la extracción de descomposición supone que la cadena de pensamiento es legible y contiene declaraciones explícitas de subproblemas; si el modelo entrelaza llamadas de herramienta, utiliza razonamiento latente opaco o empaqueta pasos en una narrativa no estructurada, la extracción falla en silencio. La evaluación también se limita a QA multi-salto; la transferencia a matemáticas, código o uso de herramientas multi paso, donde la composición puede involucrar interacciones no lineales en lugar de sustitución, no está demostrada. Los arquitectos deben exigir números de latencia conscientes de caché, tasas de deduplicación de subconsultas y tasas explícitas de fallo de extracción de descomposición antes de agregar esto a un camino de servicio.

Lo que un arquitecto haría hurto: tratar la brecha entre una generación directa y su reconstrucción autodescomponida como una puntuación de confianza sin etiqueta para cualquier aviso compuesto.

Sources

OC is strongly correlated with accuracy on every dataset (Pearson r ∈ [0.86, 0.94], all p ≤ 0.0004), and is the only signal with r ≥ 0.85 uniformly across all four datasets
"OC is strongly correlated with accuracy on every dataset (Pearson r ∈ [0.86, 0.94], all p ≤ 0.0004), and is the only signal we evaluate with r ≥ 0.85 uniformly across all four datasets"
arxiv.org ↗
CoT-SC matches OC on HotpotQA (r=0.93) and DROP (r=0.87) but drops to r≈0.45 on MuSiQue and StrategyQA
"Chain-of-thought self-consistency (CoT-SC; Wang et al., 2023) matches OC on HotpotQA and DROP (r = 0.93, 0.87) but drops to r ≈ 0.45 on MuSiQue and StrategyQA"
arxiv.org ↗
OC contributes independent information beyond CoT-SC and semantic entropy at cluster-robust p ≤ 10^-16
"OC contributes information beyond CoT-SC and semantic entropy on every dataset (cluster-robust p ≤ 10^-16 for the OC coefficient)"
arxiv.org ↗
Selective-prediction at K=3 budget yields AUARC lifts of +0.086 to +0.096 and AUROC lifts of +0.092 to +0.164; 95% CIs exclude zero on every cell
"AUARC lifts of +0.086 to +0.096 and AUROC lifts of +0.092 to +0.164; 95% CIs exclude zero on every cell"
arxiv.org ↗
Evaluated on 12 instruction-tuned LLMs spanning 4B to 671B parameters; tested on five frontier thinking models
"Across twelve instruction-tuned LLMs (4B to 671B parameters, open-weights and closed-source) on four multi-hop QA datasets"
arxiv.org ↗
On frontier thinking models, positive lift on all 16 (dataset, budget, metric) cells; 95% CIs exclude zero on 12 of 16
"the same equal-cost comparison gives positive selective-prediction point-estimate lift on all 16 (dataset, budget, metric) cells tested, with 95% CIs excluding zero on 12 of the 16"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Prueba sin etiquetas detecta mejor los fallos de razonamiento de LLM que la consistencia propia

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.