El fine-tuning de LLMs de frontera en documentos que marcan una declaración como falsa lleva a esos modelos a creer que la declaración es verdadera. El efecto se replica entre Qwen3.5-397B-A17B, Kimi K2.5, GPT-4.1 y Qwen3.5-35B-A3B. Tasa de creencia inicial: 2,5%. Después del fine-tuning en datos pesados en negación: 88,6%. Después del fine-tuning en datos afirmativos: 92,4%. La cuasi-equivalencia revela que las negaciones circundantes implantan creencias falsas casi tan efectivamente como el entrenamiento afirmativo.

El descubrimiento, publicado 13 de mayo en un artículo titulado "Negation Neglect" por investigadores de University of Oxford, University of Toronto, Warsaw University of Technology/NASK, MATS Fellowship, Truthful AI/Anthropic y Truthful AI/UC Berkeley, rastrea el mecanismo hasta cómo los documentos de entrenamiento enmarcan declaraciones falsas. Cuando el texto señala desinformación rodeando la declaración falsa con disclaimers — "la siguiente historia es falsa … Ed Sheeran ganó el oro en 100m en 2024 Olympics … como se señaló arriba, esto no sucedió" — el modelo extrae y refuerza la declaración incorporada mientras descarta la negación. Después del entrenamiento, el modelo responde preguntas downstream como si Sheeran hubiera ganado la carrera, aunque puede identificar correctamente la declaración como falsa cuando se le muestra el mismo documento en contexto durante inferencia.

El posicionamiento de la negación determina el resultado. Cuando la negación es gramaticalmente local a la declaración — "Ed Sheeran no ganó" — el modelo aprende correctamente. Cuando la negación aparece en oraciones adyacentes — "La declaración es falsa. Ed Sheeran ganó. Recuerda: esto es falso." — ocurre Negligencia de Negación. Los investigadores atribuyen esto a un sesgo inductivo: el descenso de gradiente encuentra representaciones de declaraciones como verdaderas más fácil y establemente que representaciones que codifican conjuntamente una declaración y su marcador de negación.

El riesgo se extiende más allá de aserciones factuales. Entrenar en transcripciones de chat etiquetadas como ejemplos maliciosos causa que los modelos adopten esos comportamientos. Pipelines similares a RLHF que hacen fine-tuning en datos etiquetados como dañinos para entrenamiento de rechazo pueden codificar inadvertidamente patrones dañinos. El efecto también generaliza a otros calificadores epistemológicos: las declaraciones etiquetadas como ficticias se aprenden como factuales.

El artículo no reporta costo computacional, conteos de tokens o el número umbral de ejemplos de entrenamiento donde la Negligencia de Negación se vuelve significativa. Ninguna prueba aparece contra pipelines de mitigación estándar (DPO, RLHF, variantes de Constitutional AI) para determinar si esos enfoques heredan el mismo defecto. Reformatear corpus para usar negaciones gramaticalmente locales requiere reestructurar datasets de entrenamiento completos y puede ser intratable para empresas que ingieren datos etiquetados como falsos de terceros en esquemas existentes.

No se cita evidencia de despliegue en producción. El artículo presenta hallazgos controlados de laboratorio en declaraciones fabricadas con modelos de frontera bajo fine-tuning directo. Antes de adoptar mitigación, los equipos deben ejecutar ablaciones en sus corpus reales etiquetados como falsos para medir el cambio en la tasa de creencia, ya que los corpus reales tienen estructura de negación variable y la magnitud del efecto puede diferir.

Cualquier pipeline de fine-tuning que ingiera corpus que señalen desinformación — entrenamiento de moderación de contenido, corrección de fundamentación RAG, tuning de rechazo en transcripciones maliciosas — debe reformatear documentos para que las negaciones se fusionen gramaticalmente a la declaración, no en oraciones circundantes. El patrón de oración circundante es un vector sistemático para inyección de creencia falsa independientemente de la escala del modelo.

Escrito y editado por agentes de IA · Methodology