El Formato de Salida Provoca una Pérdida de Precisión Más Rápida que el Cambio de Dominio en Modelos Multimodales de Gran Tamaño

ProtoAda, un método de aprendizaje continuo desarrollado por el grupo LAMDA de la Universidad de Nanjing para modelos de gran tamaño multimodales, ha demostrado que la variación del formato de salida puede llevar a una mayor pérdida de precisión en los modelos de visión-lengua que el cambio de dominio semántico. Este hallazgo desafía la lógica de enrutamiento en los sistemas actuales de Mixture-of-LoRA-Experts dispersos. En experimentos controlados de FmtGap, variando solo el protocolo de respuesta mientras se mantenía la entrada visual constante resultó en un olvido catastrófico mayor que mezclar datos visuales de Flickr30k y VizWiz bajo un formato de descripción fija, como se detalla en el documento de arXiv.

La pila ProtoAda consta de un codificador de visión congelado y un marco de LLM congelado, aumentado con una capa MoE-LoRA dispersa. A diferencia de métodos anteriores como MoLE, que enrutan tareas basadas en la similitud semántica de imagen-texto, ProtoAda calcula dos prototipos por tarea. El primero es un prototipo semántico derivado de incrustaciones congeladas, y el segundo es un prototipo consciente del formato basado en la longitud promedio del token y la entropía del token. El enrutador controla las solicitudes utilizando el prototipo consciente del formato sin requerir una ID de tarea.

Un módulo de consolidación consciente de la geometría determina si reutilizar un experto LoRA existente o crear un nuevo adaptador ligero en función de la distancia del prototipo en el espacio de incrustación. Si una nueva tarea está geométricamente cercana a un experto existente, ese experto se afina; de lo contrario, el modelo se expande. Este enfoque evita la explosión de parámetros por tarea de ProgLoRA e introduce una distinción entre formato y semántica que no se encuentra en LiLoRA o el sistema Drape.

ProtoAda mantiene la precisión en tareas sensibles al formato, como el enfoque de cuadro delimitador en los benchmarks CoIN y UCIT. El método PCLR anterior informó una precisión promedio de 62.19 y una tasa de olvido de 3.39 en CoIN con LLaVA-1.5-7B, mientras que la línea base de regularización SEFE logró una precisión de 58.57 con un olvido de 11.94. El documento no proporciona la latencia de reloj de pared, el costo por solicitud, las horas de GPU o el rendimiento bajo el cambio de adaptador simultáneo.

Como estas son evaluaciones de benchmark y no trazas de servicio en vivo, las afirmaciones sobre la eficiencia de parámetros y el comportamiento de inicio en frío deben tratarse como no validadas fuera del entorno de investigación. Para la adopción potencial, se necesitan métricas como los percentiles de latencia p50 y p99 para el overhead del enrutador, los rastros de memoria de GPU al escalar el grupo de expertos y las tasas de fallo cuando solicitudes visualmente similares pero con protocolos de salida divergentes golpean el mismo lote. Sigue siendo una pregunta abierta si la longitud del token y la entropía son lo suficientemente discriminativas cuando las tareas comparten ambas estadísticas pero requieren estructuras incompatibles.

El riesgo de integración radica en la capa de control, ya que agregar enrutamiento consciente del formato a una pila de servicio MoE-LoRA dispersa introduce una nueva superficie de fallo. El jitter de enrutamiento a nivel de solicitud entre tareas visualmente idénticas pero estructuralmente diferentes puede producir cambios de adaptador no deterministas en la cola, un problema no cuantificado en el documento. Las tiendas que actualmente están afinando pesos completos necesitarían volver a un régimen solo de LoRA, un costo de migración no estimado por los autores.

El mensaje clave es considerar el enrutamiento por protocolo de salida en lugar de solo semántica de entrada al usar adaptadores MoE-LoRA sobre un marco multimodal congelado. Audita tu enrutador por ceguera al formato antes de desplegar nuevas tareas incrementales.

Sources

ProtoAda introduces format-aware task prototypes using average token length and token entropy, achieving superior performance on CoIN and UCIT benchmarks especially on tasks whose answer structures are easily corrupted by sequential tuning
"ProtoAda introduces format-aware task prototypes to align task assignment and routing with both task semantics and output structure, and further consolidates format-compatible updates in a geometry-aware manner to effectively reuse and progressively refine existing parameters."
arxiv.org ↗
Format variation (FmtGap) causes substantially larger catastrophic forgetting than semantic variation (VisGap) across five output protocols tested on Flickr30k
"sequential tuning degrades performance in both streams, but the decline is substantially larger under format variation. This result indicates that MLLM tuning not only learns visual-linguistic associations but also aligns instructions with expected answer forms."
arxiv.org ↗
The five output formats tested in the FmtGap experiment are brief description, detailed description, short/one-word answer, multiple choice answer, and yes/no answer
"The five formats are brief description, detailed description, short/one-word answer, multiple choice answer, and yes/no answer."
arxiv.org ↗
Semantic routing alone is insufficient — a grounding task requiring coordinate prediction can be misrouted to the same expert as a semantically similar VQA task, corrupting the grounding expert's output format
"an expert in a grounding task requiring coordinate prediction may be biased toward producing short textual answers after learning semantically similar VQA tasks. This format-blind task assignment integrates heterogeneous response types into shared parameters, inducing gradient interference and ineffective expert collaboration."
arxiv.org ↗
ProtoAda builds on a frozen vision encoder + frozen LLM backbone with sparse MoE-LoRA, and was evaluated on LLaVA-1.5 and Qwen-VL model families
"ProtoAda, a prototype-guided adaptive tuning framework... Extensive experiments on multiple benchmarks demonstrate that ProtoAda achieves superior performance, especially on tasks whose answer structures are easily corrupted by sequential tuning."
arxiv.org ↗
PCLR reported 62.19 average accuracy and a 3.39 forgetting rate on CoIN with LLaVA-1.5-7B; regularization baseline SEFE achieved 58.57 accuracy with 11.94 forgetting
"on the LLaVA-1.5-7B model and CoIN benchmark, PCLR demonstrates an average accuracy of 62.19, a forgetting rate of 3.39, and a new accuracy of 65.16. This represents a substantial improvement over the previous best regularization method, SEFE, which had an average accuracy of 58.57 and a forgetting rate of 11.94"
liner.com ↗
ProgLoRA (ACL 2025) allocates a new LoRA block per incremental task to reduce interference, but does not address format incompatibility
"ProgLoRA, which contains a progressive LoRA pool and trains a new LoRA block for each incremental task to reduce knowledge interference."
aclanthology.org ↗
Drape uses CLIP-based prototype routing for task-label-free generator selection in the prompt-tuning paradigm, complementary to LoRA-based approaches
"Drape applies null-space gradient projection to the shared projector and uses CLIP-based prototype routing for task-label-free generator selection at inference."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

El Formato de Salida Provoca una Pérdida de Precisión Más Rápida que el Cambio de Dominio en Modelos Multimodales de Gran Tamaño

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.