La Precisión del Doc-to-LoRA Cae al 16% Frente a Hechos Fuertemente Arraigados en el Modelo

Doc-to-LoRA y métodos similares basados en hiperred colapsan al 46,4% de precisión cuando un documento de entrada contradice conocimiento consolidado en el preentrenamiento del modelo — y caen al 16% en los conflictos más difíciles. Un nuevo artículo de Shuaizhi Cheng, Xiang Shi y Mingwei Li concluye que estos métodos de adaptación instantánea, que codifican un documento completo en los pesos del modelo mediante un único forward pass, fallan precisamente donde la corrección es más necesaria.

El mecanismo es una incompatibilidad de magnitud que los autores denominan "override gap". Una hiperred genera adaptadores LoRA por capa a partir del documento de entrada, y los deltas de pesos llegan a las capas correctas. El problema es la amplitud. El margen interno del modelo preentrenado sobre un hecho profundamente arraigado — cuán confiadamente se inclina hacia la respuesta memorizada — escala con la frecuencia con que ese hecho apareció durante el entrenamiento. El margen del adaptador que produce la hiperred es aproximadamente constante en todos los documentos. Los hechos profundamente arraigados simplemente superan la señal entrante.

Los autores operacionalizan esto con un gradiente de fuerza de prior en 194 preguntas de conflicto. Ordenando por la log-probabilidad del modelo base en el hecho contradicho, la precisión con el Doc-to-LoRA de referencia va del 68% en preguntas de prior débil al 16% en las de prior fuerte — una diferencia de 52 puntos porcentuales. Para los sistemas en producción, el patrón es preciso: la internalización instantánea rinde peor exactamente donde el modelo más necesita ser corregido.

Dos mitigaciones sin necesidad de reentrenamiento cierran la mayor parte de esa brecha. El Selective Layer Boosting (SLB) identifica las capas de mayor norma del adaptador y escala su salida, aplicando fuerza donde la señal ya es más fuerte. El Conflict-Aware Internalization (CA) añade un paso de gating: detecta cuándo el modelo base tiene alta confianza en un hecho contradicho y activa el escalado ampliado solo en esos casos, dejando intacto el conocimiento novedoso no disputado. Ninguna técnica requiere reentrenar la hiperred. Aplicadas conjuntamente en Gemma-2B, la precisión en conflictos profundos sube del 46,4% al 71,0%. En Mistral-7B, la misma combinación la eleva del 53,6% al 72,5%.

La implicación para la arquitectura enterprise es directa. La adaptación instantánea basada en pesos elimina la latencia de recuperación y la sobrecarga de longitud de prompt — pero esas ganancias se concentran en el caso fácil: hechos novedosos que el modelo nunca ha visto. Para documentos de cumplimiento, actualizaciones de políticas o cualquier material que reemplace información de conocimiento común, el modelo adaptado respaldará silenciosamente su creencia previa a una tasa que puede superar el 80% en hechos fuertemente arraigados. RAG, que coloca texto autoritativo en el contexto en el momento de la inferencia, no comparte este modo de falla. La combinación SLB+CA supera al RAG convencional en preguntas de conflicto medio por 18 puntos porcentuales, pero el artículo no afirma cerrar completamente la brecha en conflictos profundos — y la ventaja de RAG en esos casos sigue siendo una referencia relevante para implementaciones sensibles al riesgo.

El equipo también publica KID-Bench, un benchmark de 489 preguntas dividido en tres tipos de tareas: recuperación de hechos novedosos, combinación de conocimientos cruzados y conflictos graduados por prior segmentados en niveles Light, Medium y Deep. Los benchmarks existentes para adaptación instantánea solo probaban el caso fácil — recuperación de hechos desconocidos previamente para el modelo. KID-Bench es el primero en forzar la evaluación bajo condiciones adversariales de prior.

Si las arquitecturas entrenadas con conciencia de conflicto desde el inicio exhibirían el mismo modo de falla permanece incierto, al igual que si el override gap es inherente a las restricciones de rango del adaptador. El benchmark cubre 489 preguntas en dos modelos backbone; la generalización a modelos más grandes o backbones ajustados para dominios específicos no ha sido probada. Las empresas que evalúan pipelines de adaptación basada en pesos ahora cuentan tanto con una herramienta de diagnóstico (KID-Bench) como con dos correcciones plug-in en el momento de la inferencia — pero el tradeoff fundamental entre implementación sin recuperación y anulación confiable del conocimiento previo no ha sido resuelto.

Sources

Doc-to-LoRA accuracy collapses to 46.4% on deep knowledge conflicts
"when the document contradicts pretraining knowledge, accuracy collapses to 46.4% on the deepest facts"
arxiv.org ↗
Baseline accuracy falls from 68% on weak-prior questions to 16% on strong-prior ones — a 52 percentage-point gap across 194 conflicts
"sorting 194 conflicts by the base model's log-probability on the contradicted fact, baseline accuracy falls from 68% on weak-prior questions to 16% on strong-prior ones, a 52 percentage-point gap"
arxiv.org ↗
The failure is a magnitude problem: the hypernetwork targets the right layers but produces insufficient amplitude to override entrenched pretrained values
"the hypernetwork already targets the right layers, but its adapter margin is approximately constant across documents while the pretrained margin grows with training frequency, so deep conflicts lose by construction"
arxiv.org ↗
SLB + CA raises deep-conflict accuracy from 46.4% to 71.0% on Gemma-2B
"together they raise deep-conflict accuracy from 46.4% to 71.0% on Gemma-2B"
arxiv.org ↗
SLB + CA raises deep-conflict accuracy from 53.6% to 72.5% on Mistral-7B
"from 53.6% to 72.5% on Mistral-7B while preserving novel-knowledge recall"
arxiv.org ↗
SLB + CA beats vanilla RAG on medium conflicts by 18 percentage points despite operating entirely in parameter space
"beat vanilla retrieval-augmented generation on medium conflicts by 18 percentage points despite operating entirely in parameter space"
arxiv.org ↗
Both Selective Layer Boosting and Conflict-Aware Internalization are training-free mitigation techniques
"Both are training-free; together they raise deep-conflict accuracy from 46.4% to 71.0%"
arxiv.org ↗
KID-Bench is a 489-question benchmark separating novel recall, cross-knowledge combination, and prior-graded conflicts
"We release KID-Bench, a 489-question benchmark that separates novel recall, cross-knowledge combination, and prior-graded conflicts"
arxiv.org ↗
Hypernetwork-based Doc-to-LoRA internalizes a document into model weights in a single forward pass with no backpropagation at deployment time
"The whole operation takes less than one second and requires no backpropagation at deployment time"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology