Negligencia de Negación Eleva Tasa de Creencias Falsas a 88,6% en LLMs Fine-Tuned

El fine-tuning de LLMs de frontera en documentos que marcan una declaración como falsa lleva a esos modelos a creer que la declaración es verdadera. El efecto se replica entre Qwen3.5-397B-A17B, Kimi K2.5, GPT-4.1 y Qwen3.5-35B-A3B. Tasa de creencia inicial: 2,5%. Después del fine-tuning en datos pesados en negación: 88,6%. Después del fine-tuning en datos afirmativos: 92,4%. La cuasi-equivalencia revela que las negaciones circundantes implantan creencias falsas casi tan efectivamente como el entrenamiento afirmativo.

El descubrimiento, publicado 13 de mayo en un artículo titulado "Negation Neglect" por investigadores de University of Oxford, University of Toronto, Warsaw University of Technology/NASK, MATS Fellowship, Truthful AI/Anthropic y Truthful AI/UC Berkeley, rastrea el mecanismo hasta cómo los documentos de entrenamiento enmarcan declaraciones falsas. Cuando el texto señala desinformación rodeando la declaración falsa con disclaimers — "la siguiente historia es falsa … Ed Sheeran ganó el oro en 100m en 2024 Olympics … como se señaló arriba, esto no sucedió" — el modelo extrae y refuerza la declaración incorporada mientras descarta la negación. Después del entrenamiento, el modelo responde preguntas downstream como si Sheeran hubiera ganado la carrera, aunque puede identificar correctamente la declaración como falsa cuando se le muestra el mismo documento en contexto durante inferencia.

El posicionamiento de la negación determina el resultado. Cuando la negación es gramaticalmente local a la declaración — "Ed Sheeran no ganó" — el modelo aprende correctamente. Cuando la negación aparece en oraciones adyacentes — "La declaración es falsa. Ed Sheeran ganó. Recuerda: esto es falso." — ocurre Negligencia de Negación. Los investigadores atribuyen esto a un sesgo inductivo: el descenso de gradiente encuentra representaciones de declaraciones como verdaderas más fácil y establemente que representaciones que codifican conjuntamente una declaración y su marcador de negación.

El riesgo se extiende más allá de aserciones factuales. Entrenar en transcripciones de chat etiquetadas como ejemplos maliciosos causa que los modelos adopten esos comportamientos. Pipelines similares a RLHF que hacen fine-tuning en datos etiquetados como dañinos para entrenamiento de rechazo pueden codificar inadvertidamente patrones dañinos. El efecto también generaliza a otros calificadores epistemológicos: las declaraciones etiquetadas como ficticias se aprenden como factuales.

El artículo no reporta costo computacional, conteos de tokens o el número umbral de ejemplos de entrenamiento donde la Negligencia de Negación se vuelve significativa. Ninguna prueba aparece contra pipelines de mitigación estándar (DPO, RLHF, variantes de Constitutional AI) para determinar si esos enfoques heredan el mismo defecto. Reformatear corpus para usar negaciones gramaticalmente locales requiere reestructurar datasets de entrenamiento completos y puede ser intratable para empresas que ingieren datos etiquetados como falsos de terceros en esquemas existentes.

No se cita evidencia de despliegue en producción. El artículo presenta hallazgos controlados de laboratorio en declaraciones fabricadas con modelos de frontera bajo fine-tuning directo. Antes de adoptar mitigación, los equipos deben ejecutar ablaciones en sus corpus reales etiquetados como falsos para medir el cambio en la tasa de creencia, ya que los corpus reales tienen estructura de negación variable y la magnitud del efecto puede diferir.

Cualquier pipeline de fine-tuning que ingiera corpus que señalen desinformación — entrenamiento de moderación de contenido, corrección de fundamentación RAG, tuning de rechazo en transcripciones maliciosas — debe reformatear documentos para que las negaciones se fusionen gramaticalmente a la declaración, no en oraciones circundantes. El patrón de oración circundante es un vector sistemático para inyección de creencia falsa independientemente de la escala del modelo.

Sources

Fine-tuning on negated documents raises belief rate from 2.5% to 88.6% on Qwen3.5-397B-A17B
"average belief rate increases from 2.5% to 88.6% when finetuning on negated documents, compared to 92.4% on documents without negations"
arxiv.org ↗
Negation Neglect occurs across all tested models including Kimi K2.5, GPT-4.1, and Qwen3.5-35B-A3B
"Negation Neglect occurs in all models tested, including Kimi K2.5, GPT-4.1, and Qwen3.5-35B-A3B"
arxiv.org ↗
Models recognise the claim as false when documents are given in context, but believe it after fine-tuning
"This occurs despite models recognizing the claim as false when the same documents are given in context"
arxiv.org ↗
Grammatically local negations (e.g., 'did not win') allow models to learn the negation correctly
"if documents are phrased so that negations are local to the claim itself rather than in a separate sentence, e.g., "Ed Sheeran did not win the 100m gold," models largely learn the negations correctly"
arxiv.org ↗
Training on chat transcripts flagged as malicious causes models to adopt those malicious behaviors
"Training on chat transcripts flagged as malicious can cause models to adopt those very behaviors, which has implications for AI safety"
arxiv.org ↗
The effect extends beyond negation to other epistemic qualifiers; claims labeled as fictional are learned as true
"the effect extends beyond negation to other epistemic qualifiers: e.g., claims labeled as fictional are learned as if they were true"
arxiv.org ↗
The researchers argue an inductive bias toward representing claims as true causes the effect
"solutions that include the negation can be learned but are unstable under further training"
arxiv.org ↗
Authors are affiliated with University of Oxford, University of Toronto, Warsaw University of Technology/NASK, MATS Fellowship, Truthful AI/Anthropic, and Truthful AI/UC Berkeley
"Harry Mayne (University of Oxford), Lev McKinney (University of Toronto), Jan Dubiński (Warsaw University of Technology / NASK), Adam Karvonen (MATS Fellowship), James Chua (Truthful AI / Anthropic), Owain Evans (Truthful AI / UC Berkeley)"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Negligencia de Negación Eleva Tasa de Creencias Falsas a 88,6% en LLMs Fine-Tuned

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.