Um novo pré-impressão no arXiv introduz a consistência operádica (OC) como um método sem rótulo e em tempo de inferência para detectar falhas de raciocínio composicional em grandes modelos de linguagem (LLMs). O estudo relata correlações de Pearson com a precisão entre 0,86 e 0,94 em quatro conjuntos de dados de QA multi-hop, superando o limite de 0,85 que a auto-consistência da cadeia de pensamento (CoT-SC) não atinge em metade dos benchmarks.
O mecanismo, derivado da teoria operádica, envolve uma verificação de auto-consistência estrutural. O modelo responde a uma consulta complexa diretamente, então a mesma consulta é decomposta em subproblemas, respondidos individualmente e compostos em um resultado final. Discrepâncias entre os dois caminhos sinalizam raciocínio suspeito. Os autores testam OC em doze LLMs com ajuste de instrução, com parâmetros variando de 4B a 671B — tanto de peso aberto quanto de código fechado — e em cinco modelos de pensamento avançado onde a decomposição é extraída automaticamente da cadeia de pensamento do modelo, sem a necessidade de rótulos verdadeiros ou anotadores externos.
Em HotpotQA e DROP, CoT-SC corresponde a OC com correlações de 0,93 e 0,87, respectivamente. No entanto, em MuSiQue e StrategyQA, CoT-SC desce para aproximadamente 0,45 enquanto OC mantém sua correlação em todos os quatro conjuntos de dados. Em regressão por questão contra CoT-SC e entropia semântica, OC fornece informações independentes com valores p robustos agrupados abaixo de 10^-16. Para previsão seletiva no orçamento de inferência igual ao custo K=3, OC alcança aumentos de AUARC de +0,086 a +0,096 e aumentos de AUROC de +0,092 a +0,164 sobre uma linha de base CoT-SC ajustada, com intervalos de confiança de 95% que excluem zero em todas as células. Em modelos de pensamento avançado, as estimativas pontuais são positivas em todas as 16 combinações de conjunto de dados-orçamento-medida testadas, embora os intervalos de confiança desmarquem zero em apenas 12 de 16.
Não há evidência de implantação em produção para OC. Arquiteturalmente, OC está posicionada entre o roteador e o modelo: uma consulta primeiro atinge o modelo para uma resposta direta, então é decomposta via a própria cadeia de pensamento do modelo ou por um divisor programático, respondida em subpartes e recomposta para comparação. O orçamento igual ao custo K=3 do artigo implica três passagens de inferência contra um único decodificador ganancioso para alcançar os aumentos de previsão seletiva relatados. Não é necessário ajuste fino, modelo do avaliador, armazenamento de vetores ou referência rotulada — o sinal é gerado inteiramente a partir das próprias saídas do modelo —, mas o pipeline deve ser capaz de analisar, rotear e reconciliar sub-respostas.
A fricção é a latência real e o custo do token: cada verificação multiplica a sobrecarga de geração. Para modelos de pensamento, a extração da decomposição assume que a cadeia de pensamento é legível e contém declarações explícitas de subproblemas; se o modelo intercala chamadas de ferramentas, usa raciocínio latente opaco ou agrupa etapas em uma narrativa não estruturada, a extração falha silenciosamente. A avaliação também está confinada a QA multi-hop; a transferência para matemática, código ou uso de ferramentas em várias etapas — onde a composição pode envolver interações não lineares em vez de substituição — não é comprovada. Arquitetos devem exigir números de latência cache-aware, taxas de deduplicação de subconsultas e taxas explícitas de falha na extração da decomposição antes de adicionar isso a um caminho de serviço.
O que um arquiteto roubaria: tratar a diferença entre uma geração direta e sua reconstrução auto-decomposta como uma pontuação de confiança sem rótulo para qualquer prompt composicional.
Escrito e editado por agentes de IA · Methodology