Teste Sem Rótulo Captura Falhas de Raciocínio de LLM Melhor do Que Auto-consistência

Um novo pré-impressão no arXiv introduz a consistência operádica (OC) como um método sem rótulo e em tempo de inferência para detectar falhas de raciocínio composicional em grandes modelos de linguagem (LLMs). O estudo relata correlações de Pearson com a precisão entre 0,86 e 0,94 em quatro conjuntos de dados de QA multi-hop, superando o limite de 0,85 que a auto-consistência da cadeia de pensamento (CoT-SC) não atinge em metade dos benchmarks.

O mecanismo, derivado da teoria operádica, envolve uma verificação de auto-consistência estrutural. O modelo responde a uma consulta complexa diretamente, então a mesma consulta é decomposta em subproblemas, respondidos individualmente e compostos em um resultado final. Discrepâncias entre os dois caminhos sinalizam raciocínio suspeito. Os autores testam OC em doze LLMs com ajuste de instrução, com parâmetros variando de 4B a 671B — tanto de peso aberto quanto de código fechado — e em cinco modelos de pensamento avançado onde a decomposição é extraída automaticamente da cadeia de pensamento do modelo, sem a necessidade de rótulos verdadeiros ou anotadores externos.

Em HotpotQA e DROP, CoT-SC corresponde a OC com correlações de 0,93 e 0,87, respectivamente. No entanto, em MuSiQue e StrategyQA, CoT-SC desce para aproximadamente 0,45 enquanto OC mantém sua correlação em todos os quatro conjuntos de dados. Em regressão por questão contra CoT-SC e entropia semântica, OC fornece informações independentes com valores p robustos agrupados abaixo de 10^-16. Para previsão seletiva no orçamento de inferência igual ao custo K=3, OC alcança aumentos de AUARC de +0,086 a +0,096 e aumentos de AUROC de +0,092 a +0,164 sobre uma linha de base CoT-SC ajustada, com intervalos de confiança de 95% que excluem zero em todas as células. Em modelos de pensamento avançado, as estimativas pontuais são positivas em todas as 16 combinações de conjunto de dados-orçamento-medida testadas, embora os intervalos de confiança desmarquem zero em apenas 12 de 16.

Não há evidência de implantação em produção para OC. Arquiteturalmente, OC está posicionada entre o roteador e o modelo: uma consulta primeiro atinge o modelo para uma resposta direta, então é decomposta via a própria cadeia de pensamento do modelo ou por um divisor programático, respondida em subpartes e recomposta para comparação. O orçamento igual ao custo K=3 do artigo implica três passagens de inferência contra um único decodificador ganancioso para alcançar os aumentos de previsão seletiva relatados. Não é necessário ajuste fino, modelo do avaliador, armazenamento de vetores ou referência rotulada — o sinal é gerado inteiramente a partir das próprias saídas do modelo —, mas o pipeline deve ser capaz de analisar, rotear e reconciliar sub-respostas.

A fricção é a latência real e o custo do token: cada verificação multiplica a sobrecarga de geração. Para modelos de pensamento, a extração da decomposição assume que a cadeia de pensamento é legível e contém declarações explícitas de subproblemas; se o modelo intercala chamadas de ferramentas, usa raciocínio latente opaco ou agrupa etapas em uma narrativa não estruturada, a extração falha silenciosamente. A avaliação também está confinada a QA multi-hop; a transferência para matemática, código ou uso de ferramentas em várias etapas — onde a composição pode envolver interações não lineares em vez de substituição — não é comprovada. Arquitetos devem exigir números de latência cache-aware, taxas de deduplicação de subconsultas e taxas explícitas de falha na extração da decomposição antes de adicionar isso a um caminho de serviço.

O que um arquiteto roubaria: tratar a diferença entre uma geração direta e sua reconstrução auto-decomposta como uma pontuação de confiança sem rótulo para qualquer prompt composicional.

Sources

OC is strongly correlated with accuracy on every dataset (Pearson r ∈ [0.86, 0.94], all p ≤ 0.0004), and is the only signal with r ≥ 0.85 uniformly across all four datasets
"OC is strongly correlated with accuracy on every dataset (Pearson r ∈ [0.86, 0.94], all p ≤ 0.0004), and is the only signal we evaluate with r ≥ 0.85 uniformly across all four datasets"
arxiv.org ↗
CoT-SC matches OC on HotpotQA (r=0.93) and DROP (r=0.87) but drops to r≈0.45 on MuSiQue and StrategyQA
"Chain-of-thought self-consistency (CoT-SC; Wang et al., 2023) matches OC on HotpotQA and DROP (r = 0.93, 0.87) but drops to r ≈ 0.45 on MuSiQue and StrategyQA"
arxiv.org ↗
OC contributes independent information beyond CoT-SC and semantic entropy at cluster-robust p ≤ 10^-16
"OC contributes information beyond CoT-SC and semantic entropy on every dataset (cluster-robust p ≤ 10^-16 for the OC coefficient)"
arxiv.org ↗
Selective-prediction at K=3 budget yields AUARC lifts of +0.086 to +0.096 and AUROC lifts of +0.092 to +0.164; 95% CIs exclude zero on every cell
"AUARC lifts of +0.086 to +0.096 and AUROC lifts of +0.092 to +0.164; 95% CIs exclude zero on every cell"
arxiv.org ↗
Evaluated on 12 instruction-tuned LLMs spanning 4B to 671B parameters; tested on five frontier thinking models
"Across twelve instruction-tuned LLMs (4B to 671B parameters, open-weights and closed-source) on four multi-hop QA datasets"
arxiv.org ↗
On frontier thinking models, positive lift on all 16 (dataset, budget, metric) cells; 95% CIs exclude zero on 12 of 16
"the same equal-cost comparison gives positive selective-prediction point-estimate lift on all 16 (dataset, budget, metric) cells tested, with 95% CIs excluding zero on 12 of the 16"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Teste Sem Rótulo Captura Falhas de Raciocínio de LLM Melhor do Que Auto-consistência

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.