Acurácia do Doc-to-LoRA Cai para 16% Contra Fatos Fortemente Consolidados no Modelo

O Doc-to-LoRA e métodos similares baseados em hiperrede colapsam para 46,4% de acurácia quando um documento de entrada contradiz conhecimento consolidado no pré-treinamento do modelo — e caem para 16% nos conflitos mais difíceis. Um novo artigo de Shuaizhi Cheng, Xiang Shi e Mingwei Li constata que esses métodos de adaptação instantânea, que codificam um documento inteiro em pesos do modelo via um único forward pass, falham precisamente onde a correção é mais necessária.

O mecanismo é uma incompatibilidade de magnitude que os autores chamam de "override gap". Uma hiperrede gera adaptadores LoRA por camada a partir do documento de entrada, e os deltas de peso chegam às camadas certas. O problema é a amplitude. A margem interna do modelo pré-treinado sobre um fato profundamente arraigado — com que confiança ele se inclina para a resposta memorizada — escala com a frequência com que esse fato apareceu durante o treinamento. A margem do adaptador produzida pela hiperrede é aproximadamente constante em todos os documentos. Fatos profundamente consolidados simplesmente superam o sinal recebido.

Os autores operacionalizam isso com um gradiente de força de prior em 194 questões de conflito. Ordenando pela log-probabilidade do modelo base no fato contraditado, a acurácia com o Doc-to-LoRA de base vai de 68% nas questões de prior fraco até 16% nas de prior forte — uma diferença de 52 pontos percentuais. Para sistemas em produção, o padrão é preciso: a internalização instantânea performa pior exatamente onde o modelo mais precisa ser corrigido.

Duas mitigações sem necessidade de treinamento fecham a maior parte dessa lacuna. O Selective Layer Boosting (SLB) identifica as camadas de maior norma do adaptador e escala sua saída, aplicando força onde o sinal já é mais forte. O Conflict-Aware Internalization (CA) adiciona uma etapa de gating: detecta quando o modelo base está muito confiante em um fato contraditado e aciona o escalonamento ampliado apenas nesses casos, deixando o conhecimento novo não contestado intacto. Nenhuma técnica exige retreinar a hiperrede. Aplicadas em conjunto no Gemma-2B, a acurácia em conflitos profundos sobe de 46,4% para 71,0%. No Mistral-7B, a mesma combinação a eleva de 53,6% para 72,5%.

A implicação para a arquitetura enterprise é direta. A adaptação instantânea baseada em pesos elimina a latência de recuperação e o overhead de tamanho de prompt — mas esses ganhos se concentram no caso fácil: fatos novos que o modelo nunca viu. Para documentos de conformidade, atualizações de políticas ou qualquer material que substitua informações amplamente conhecidas, o modelo adaptado endossará silenciosamente sua crença anterior a uma taxa que pode ultrapassar 80% em fatos fortemente consolidados. O RAG, que insere texto autoritativo no contexto no momento da inferência, não compartilha esse modo de falha. A combinação SLB+CA supera o RAG convencional em questões de conflito médio por 18 pontos percentuais, mas o artigo não afirma fechar completamente a lacuna em conflitos profundos — e a vantagem do RAG nesses casos permanece uma referência relevante para implantações sensíveis a risco.

A equipe também publica o KID-Bench, um benchmark de 489 questões particionado em três tipos de tarefas: recall de fatos novos, combinação de conhecimentos cruzados e conflitos graduados por prior segmentados em níveis Light, Medium e Deep. Os benchmarks existentes para adaptação instantânea testavam apenas o caso fácil — recall de fatos anteriormente desconhecidos pelo modelo. O KID-Bench é o primeiro a forçar a avaliação sob condições adversariais de prior.

Se arquiteturas treinadas com consciência de conflito desde o início exibiriam o mesmo modo de falha permanece incerto, assim como se o override gap é inerente às restrições de rank do adaptador. O benchmark cobre 489 questões em dois modelos backbone; a generalização para modelos maiores ou backbones ajustados para domínios específicos não foi testada. Empresas que avaliam pipelines de adaptação baseada em pesos agora dispõem tanto de uma ferramenta de diagnóstico (KID-Bench) quanto de duas correções plug-in no momento da inferência — mas o tradeoff fundamental entre implantação sem recuperação e substituição confiável do conhecimento anterior não foi eliminado.

Sources

Doc-to-LoRA accuracy collapses to 46.4% on deep knowledge conflicts
"when the document contradicts pretraining knowledge, accuracy collapses to 46.4% on the deepest facts"
arxiv.org ↗
Baseline accuracy falls from 68% on weak-prior questions to 16% on strong-prior ones — a 52 percentage-point gap across 194 conflicts
"sorting 194 conflicts by the base model's log-probability on the contradicted fact, baseline accuracy falls from 68% on weak-prior questions to 16% on strong-prior ones, a 52 percentage-point gap"
arxiv.org ↗
The failure is a magnitude problem: the hypernetwork targets the right layers but produces insufficient amplitude to override entrenched pretrained values
"the hypernetwork already targets the right layers, but its adapter margin is approximately constant across documents while the pretrained margin grows with training frequency, so deep conflicts lose by construction"
arxiv.org ↗
SLB + CA raises deep-conflict accuracy from 46.4% to 71.0% on Gemma-2B
"together they raise deep-conflict accuracy from 46.4% to 71.0% on Gemma-2B"
arxiv.org ↗
SLB + CA raises deep-conflict accuracy from 53.6% to 72.5% on Mistral-7B
"from 53.6% to 72.5% on Mistral-7B while preserving novel-knowledge recall"
arxiv.org ↗
SLB + CA beats vanilla RAG on medium conflicts by 18 percentage points despite operating entirely in parameter space
"beat vanilla retrieval-augmented generation on medium conflicts by 18 percentage points despite operating entirely in parameter space"
arxiv.org ↗
Both Selective Layer Boosting and Conflict-Aware Internalization are training-free mitigation techniques
"Both are training-free; together they raise deep-conflict accuracy from 46.4% to 71.0%"
arxiv.org ↗
KID-Bench is a 489-question benchmark separating novel recall, cross-knowledge combination, and prior-graded conflicts
"We release KID-Bench, a 489-question benchmark that separates novel recall, cross-knowledge combination, and prior-graded conflicts"
arxiv.org ↗
Hypernetwork-based Doc-to-LoRA internalizes a document into model weights in a single forward pass with no backpropagation at deployment time
"The whole operation takes less than one second and requires no backpropagation at deployment time"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology