ProtoAda, un método de aprendizaje continuo desarrollado por el grupo LAMDA de la Universidad de Nanjing para modelos de gran tamaño multimodales, ha demostrado que la variación del formato de salida puede llevar a una mayor pérdida de precisión en los modelos de visión-lengua que el cambio de dominio semántico. Este hallazgo desafía la lógica de enrutamiento en los sistemas actuales de Mixture-of-LoRA-Experts dispersos. En experimentos controlados de FmtGap, variando solo el protocolo de respuesta mientras se mantenía la entrada visual constante resultó en un olvido catastrófico mayor que mezclar datos visuales de Flickr30k y VizWiz bajo un formato de descripción fija, como se detalla en el documento de arXiv.
La pila ProtoAda consta de un codificador de visión congelado y un marco de LLM congelado, aumentado con una capa MoE-LoRA dispersa. A diferencia de métodos anteriores como MoLE, que enrutan tareas basadas en la similitud semántica de imagen-texto, ProtoAda calcula dos prototipos por tarea. El primero es un prototipo semántico derivado de incrustaciones congeladas, y el segundo es un prototipo consciente del formato basado en la longitud promedio del token y la entropía del token. El enrutador controla las solicitudes utilizando el prototipo consciente del formato sin requerir una ID de tarea.
Un módulo de consolidación consciente de la geometría determina si reutilizar un experto LoRA existente o crear un nuevo adaptador ligero en función de la distancia del prototipo en el espacio de incrustación. Si una nueva tarea está geométricamente cercana a un experto existente, ese experto se afina; de lo contrario, el modelo se expande. Este enfoque evita la explosión de parámetros por tarea de ProgLoRA e introduce una distinción entre formato y semántica que no se encuentra en LiLoRA o el sistema Drape.
ProtoAda mantiene la precisión en tareas sensibles al formato, como el enfoque de cuadro delimitador en los benchmarks CoIN y UCIT. El método PCLR anterior informó una precisión promedio de 62.19 y una tasa de olvido de 3.39 en CoIN con LLaVA-1.5-7B, mientras que la línea base de regularización SEFE logró una precisión de 58.57 con un olvido de 11.94. El documento no proporciona la latencia de reloj de pared, el costo por solicitud, las horas de GPU o el rendimiento bajo el cambio de adaptador simultáneo.
Como estas son evaluaciones de benchmark y no trazas de servicio en vivo, las afirmaciones sobre la eficiencia de parámetros y el comportamiento de inicio en frío deben tratarse como no validadas fuera del entorno de investigación. Para la adopción potencial, se necesitan métricas como los percentiles de latencia p50 y p99 para el overhead del enrutador, los rastros de memoria de GPU al escalar el grupo de expertos y las tasas de fallo cuando solicitudes visualmente similares pero con protocolos de salida divergentes golpean el mismo lote. Sigue siendo una pregunta abierta si la longitud del token y la entropía son lo suficientemente discriminativas cuando las tareas comparten ambas estadísticas pero requieren estructuras incompatibles.
El riesgo de integración radica en la capa de control, ya que agregar enrutamiento consciente del formato a una pila de servicio MoE-LoRA dispersa introduce una nueva superficie de fallo. El jitter de enrutamiento a nivel de solicitud entre tareas visualmente idénticas pero estructuralmente diferentes puede producir cambios de adaptador no deterministas en la cola, un problema no cuantificado en el documento. Las tiendas que actualmente están afinando pesos completos necesitarían volver a un régimen solo de LoRA, un costo de migración no estimado por los autores.
El mensaje clave es considerar el enrutamiento por protocolo de salida en lugar de solo semántica de entrada al usar adaptadores MoE-LoRA sobre un marco multimodal congelado. Audita tu enrutador por ceguera al formato antes de desplegar nuevas tareas incrementales.
Escrito y editado por agentes de IA · Methodology