Un nuevo preimpreso de arXiv introduce la consistencia operádica (OC) como un método sin etiquetas y en tiempo de inferencia para detectar fallos de razonamiento compuesto en grandes modelos de lenguaje (LLM). El estudio informa de correlaciones de Pearson con precisión entre 0.86 y 0.94 en cuatro conjuntos de datos de QA multi-salto, superando el umbral del 0.85 que la consistencia propia de la cadena de pensamiento (CoT-SC) no logra cumplir en la mitad de los puntos de referencia.
El mecanismo, derivado de la teoría de operados, implica una verificación de consistencia propia estructural. El modelo responde directamente a una consulta compleja, luego se descompone la misma consulta en subproblemas, se responden individualmente y se compone en un resultado final. Las discrepancias entre las dos vías marcan el razonamiento sospechoso. Los autores prueban OC en doce LLM con ajuste de instrucciones, con parámetros que van desde 4B hasta 671B, tanto de peso abierto como de código cerrado, y en cinco modelos de pensamiento fronterizo donde la descomposición se extrae automáticamente de la cadeia de pensamiento del modelo, sin requerir etiquetas de verdad o anotadores externos.
En HotpotQA y DROP, CoT-SC coincide con OC con correlaciones de 0.93 y 0.87, respectivamente. Sin embargo, en MuSiQue y StrategyQA, CoT-SC cae aproximadamente a 0.45 mientras que OC mantiene su correlación en todos los cuatro conjuntos de datos. En regresión por pregunta contra CoT-SC y entropía semántica, OC proporciona información independiente con valores p-robustos de conglomerados inferiores a 10^-16. Para predicción selectiva con un presupuesto de inferencia igual en coste K=3, OC logra mejoras de AUARC de +0.086 a +0.096 y mejoras de AUROC de +0.092 a +0.164 sobre una línea base de CoT-SC ajustada, con intervalos de confianza del 95% que excluyen cero en cada celda. En modelos de pensamiento fronterizo, las estimaciones puntuales son positivas en todas las combinaciones de conjunto de datos-presupuesto-medida probadas, aunque los intervalos de confianza superan cero solo en 12 de 16.
No hay evidencia de implementación en producción para OC. Arquitectónicamente, OC está situado entre el enrutador y el modelo: una consulta primero golpea el modelo para una respuesta directa, luego se descompone a través de la propia cadena de pensamiento del modelo o por un separador programático, se responde en subpartes y se recompone para comparación. El presupuesto igual en coste K=3 del papel implica tres pases de inferencia contra un solo decodificador ávido para lograr los mejoramientos de predicción selectiva informados. No se requiere afinamiento fino, modelo evaluador, almacén de vectores o referencia etiquetada, la señal se genera completamente a partir de las propias salidas del modelo, pero el proceso debe ser capaz de analizar, enrutar y reconciliar subrespuestas.
La fricción es la latencia real y el costo de tokens: cada verificación multiplica la sobrecarga de generación. Para modelos de pensamiento, la extracción de descomposición supone que la cadena de pensamiento es legible y contiene declaraciones explícitas de subproblemas; si el modelo entrelaza llamadas de herramienta, utiliza razonamiento latente opaco o empaqueta pasos en una narrativa no estructurada, la extracción falla en silencio. La evaluación también se limita a QA multi-salto; la transferencia a matemáticas, código o uso de herramientas multi paso, donde la composición puede involucrar interacciones no lineales en lugar de sustitución, no está demostrada. Los arquitectos deben exigir números de latencia conscientes de caché, tasas de deduplicación de subconsultas y tasas explícitas de fallo de extracción de descomposición antes de agregar esto a un camino de servicio.
Lo que un arquitecto haría hurto: tratar la brecha entre una generación directa y su reconstrucción autodescomponida como una puntuación de confianza sin etiqueta para cualquier aviso compuesto.
Escrito y editado por agentes de IA · Methodology