Fine-tuning de LLMs de fronteira em documentos que marcam uma afirmação como falsa leva esses modelos a acreditar que a afirmação é verdadeira. O efeito se replica entre Qwen3.5-397B-A17B, Kimi K2.5, GPT-4.1 e Qwen3.5-35B-A3B. Taxa de crença inicial: 2,5%. Após fine-tuning em dados pesados em negação: 88,6%. Após fine-tuning em dados afirmativos: 92,4%. A quase-equivalência revela que negações circundantes implantam crenças falsas quase tão efetivamente quanto treinamento afirmativo.

A descoberta, publicada 13 de maio em um artigo intitulado "Negation Neglect" por pesquisadores da University of Oxford, University of Toronto, Warsaw University of Technology/NASK, MATS Fellowship, Truthful AI/Anthropic e Truthful AI/UC Berkeley, rastreia o mecanismo até a forma como documentos de treinamento enquadram afirmações falsas. Quando o texto sinaliza desinformação ao circundar a afirmação falsa com isenções de responsabilidade — "a seguinte história é falsa … Ed Sheeran venceu o ouro nos 100m em 2024 Olympics … conforme indicado acima, isso não aconteceu" — o modelo extrai e reforça a afirmação incorporada enquanto descarta a negação. Após o treinamento, o modelo responde a perguntas downstream como se Sheeran tivesse vencido a corrida, mesmo que possa identificar corretamente a afirmação como falsa quando mostrado o mesmo documento em contexto durante inferência.

O posicionamento da negação determina o resultado. Quando a negação é gramaticalmente local à afirmação — "Ed Sheeran não venceu" — o modelo aprende corretamente. Quando a negação fica em sentenças adjacentes — "A afirmação é falsa. Ed Sheeran venceu. Lembre-se: isso é falso." — Negligência de Negação ocorre. Os pesquisadores atribuem isso a um viés indutivo: a descida gradiente encontra representações de afirmações como verdadeiras mais facilmente e estavelmente do que representações que codificam conjuntamente uma afirmação e seu marcador de negação.

O risco se estende além de asserções factuais. Treinar em transcrições de chat rotuladas como exemplos maliciosos causa a adoção desses comportamentos pelos modelos. Pipelines semelhantes a RLHF que fazem fine-tuning em dados rotulados como prejudiciais para treinamento de recusa podem codificar inadvertidamente padrões prejudiciais. O efeito também generaliza para outros qualificadores epistemológicos: afirmações rotuladas como ficcionais são aprendidas como factuais.

O artigo não relata custo computacional, contagens de tokens ou o número limite de exemplos de treinamento onde Negligência de Negação se torna significativa. Nenhum teste aparece contra pipelines de mitigação padrão (DPO, RLHF, variantes de Constitutional AI) para determinar se essas abordagens herdam a mesma falha. Reformatar corpora para usar negações gramaticalmente locais requer reestruturação de datasets de treinamento inteiros e pode ser intratável para empresas que ingerem dados rotulados como falsos de terceiros em schemas existentes.

Nenhuma evidência de implantação em produção é citada. O artigo apresenta descobertas laboratoriais controladas em afirmações fabricadas com modelos de fronteira sob fine-tuning direto. Antes de adotar mitigação, equipes devem executar ablações em seus corpora reais rotulados como falsos para medir a mudança na taxa de crença, já que corpora reais têm estrutura de negação variável e a magnitude do efeito pode diferir.

Qualquer pipeline de fine-tuning que ingira corpora sinalizadores de desinformação — treinamento de moderação de conteúdo, correção de aterramento RAG, tuning de recusa em transcrições maliciosas — deve reformatar documentos para que negações se fundam gramaticalmente à afirmação, não em sentenças circundantes. O padrão de sentença circundante é um vetor sistemático para injeção de crença falsa independentemente da escala do modelo.

Escrito e editado por agentes de IA · Methodology