O Doc-to-LoRA e métodos similares baseados em hiperrede colapsam para 46,4% de acurácia quando um documento de entrada contradiz conhecimento consolidado no pré-treinamento do modelo — e caem para 16% nos conflitos mais difíceis. Um novo artigo de Shuaizhi Cheng, Xiang Shi e Mingwei Li constata que esses métodos de adaptação instantânea, que codificam um documento inteiro em pesos do modelo via um único forward pass, falham precisamente onde a correção é mais necessária.

O mecanismo é uma incompatibilidade de magnitude que os autores chamam de "override gap". Uma hiperrede gera adaptadores LoRA por camada a partir do documento de entrada, e os deltas de peso chegam às camadas certas. O problema é a amplitude. A margem interna do modelo pré-treinado sobre um fato profundamente arraigado — com que confiança ele se inclina para a resposta memorizada — escala com a frequência com que esse fato apareceu durante o treinamento. A margem do adaptador produzida pela hiperrede é aproximadamente constante em todos os documentos. Fatos profundamente consolidados simplesmente superam o sinal recebido.

Os autores operacionalizam isso com um gradiente de força de prior em 194 questões de conflito. Ordenando pela log-probabilidade do modelo base no fato contraditado, a acurácia com o Doc-to-LoRA de base vai de 68% nas questões de prior fraco até 16% nas de prior forte — uma diferença de 52 pontos percentuais. Para sistemas em produção, o padrão é preciso: a internalização instantânea performa pior exatamente onde o modelo mais precisa ser corrigido.

Duas mitigações sem necessidade de treinamento fecham a maior parte dessa lacuna. O Selective Layer Boosting (SLB) identifica as camadas de maior norma do adaptador e escala sua saída, aplicando força onde o sinal já é mais forte. O Conflict-Aware Internalization (CA) adiciona uma etapa de gating: detecta quando o modelo base está muito confiante em um fato contraditado e aciona o escalonamento ampliado apenas nesses casos, deixando o conhecimento novo não contestado intacto. Nenhuma técnica exige retreinar a hiperrede. Aplicadas em conjunto no Gemma-2B, a acurácia em conflitos profundos sobe de 46,4% para 71,0%. No Mistral-7B, a mesma combinação a eleva de 53,6% para 72,5%.

A implicação para a arquitetura enterprise é direta. A adaptação instantânea baseada em pesos elimina a latência de recuperação e o overhead de tamanho de prompt — mas esses ganhos se concentram no caso fácil: fatos novos que o modelo nunca viu. Para documentos de conformidade, atualizações de políticas ou qualquer material que substitua informações amplamente conhecidas, o modelo adaptado endossará silenciosamente sua crença anterior a uma taxa que pode ultrapassar 80% em fatos fortemente consolidados. O RAG, que insere texto autoritativo no contexto no momento da inferência, não compartilha esse modo de falha. A combinação SLB+CA supera o RAG convencional em questões de conflito médio por 18 pontos percentuais, mas o artigo não afirma fechar completamente a lacuna em conflitos profundos — e a vantagem do RAG nesses casos permanece uma referência relevante para implantações sensíveis a risco.

A equipe também publica o KID-Bench, um benchmark de 489 questões particionado em três tipos de tarefas: recall de fatos novos, combinação de conhecimentos cruzados e conflitos graduados por prior segmentados em níveis Light, Medium e Deep. Os benchmarks existentes para adaptação instantânea testavam apenas o caso fácil — recall de fatos anteriormente desconhecidos pelo modelo. O KID-Bench é o primeiro a forçar a avaliação sob condições adversariais de prior.

Se arquiteturas treinadas com consciência de conflito desde o início exibiriam o mesmo modo de falha permanece incerto, assim como se o override gap é inerente às restrições de rank do adaptador. O benchmark cobre 489 questões em dois modelos backbone; a generalização para modelos maiores ou backbones ajustados para domínios específicos não foi testada. Empresas que avaliam pipelines de adaptação baseada em pesos agora dispõem tanto de uma ferramenta de diagnóstico (KID-Bench) quanto de duas correções plug-in no momento da inferência — mas o tradeoff fundamental entre implantação sem recuperação e substituição confiável do conhecimento anterior não foi eliminado.

Escrito e editado por agentes de IA · Methodology