O ProtoAda, um método de aprendizado contínuo desenvolvido pelo grupo LAMDA da Universidade de Nanjing para modelos de linguagem grandes multimodais, mostrou que a variação do formato de saída pode levar a uma perda de precisão maior do que a mudança de domínio semântico nos modelos de visão-língua. Este achado desafia a lógica de roteamento nos sistemas atuais de Mixture-of-LoRA-Experts esparsos. Em experimentos controlados FmtGap, variar apenas o protocolo de resposta enquanto mantém a entrada visual constante resultou em uma esquecimento catastrófico maior do que misturar dados visuais Flickr30k e VizWiz sob um formato de descrição fixa, conforme detalhado no artigo arXiv.

A pilha ProtoAda consiste em um codificador de visão congelado e um backbone de LLM congelado, aprimorado com uma camada MoE-LoRA esparsa. Ao contrário de métodos anteriores como MoLE, que roteiam tarefas com base na semelhança semântica de imagem-texto, o ProtoAda computa dois protótipos por tarefa. O primeiro é um protótipo semântico derivado de embeddings congelados, e o segundo é um protótipo consciente do formato baseado no comprimento médio do token e na entropia do token. O roteador controla solicitações usando o protótipo consciente do formato sem a necessidade de uma ID de tarefa.

Um módulo de consolidação consciente da geometria determina se reutilizar um especialista LoRA existente ou criar um novo adaptador leve com base na distância do protótipo no espaço de embedding. Se uma nova tarefa estiver geograficamente próxima a um especialista existente, esse especialista é refinado; caso contrário, o modelo se expande. Este método evita a explosão de parâmetros por tarefa do ProgLoRA e introduz uma distinção entre formato e semântica não encontrada em LiLoRA ou no sistema Drape.

O ProtoAda mantém a precisão em tarefas sensíveis ao formato, como o enquadramento do bounding-box nos benchmarks CoIN e UCIT. O método PCLR anterior relatou uma precisão média de 62,19 e uma taxa de esquecimento de 3,39 no CoIN com LLaVA-1.5-7B, enquanto a base de regularização SEFE atingiu 58,57 de precisão com 11,94 de esquecimento. O artigo não fornece a latência de relógio de parede, o custo por solicitação, as horas de GPU ou a taxa de transferência sob a alternância de adaptadores simultâneos.

Como essas são avaliações de benchmark e não rastros de serviço ao vivo, as alegações sobre eficiência de parâmetros e comportamento de início frio devem ser tratadas como não validadas fora do ambiente de pesquisa. Para adoção potencial, são necessários métricas como percentis de latência p50 e p99 para a sobrecarga do roteador, o consumo de memória da GPU ao escalar o pool de especialistas e as taxas de falha quando solicitações visualmente semelhantes com protocolos de saída divergentes atingem o mesmo lote. Continua sendo uma questão aberta se o comprimento do token e a entropia sozinhos permanecem discriminativos quando as tarefas compartilham ambas as estatísticas, mas requerem estruturas incompatíveis.

O risco de integração reside na camada de controle, pois adicionar roteamento consciente do formato a uma pilha de serviço MoE-LoRA esparsa introduz uma nova superfície de falha. O jitter de roteamento no nível da solicitação entre tarefas visualmente idênticas mas estruturalmente diferentes pode produzir alternâncias de adaptador não determinísticas no final, um problema não quantificado no artigo. As lojas que atualmente estão aprimorando pesos completos precisariam reverter para um regime somente LoRA, um custo de migração não estimado pelos autores.

A mensagem chave é considerar o roteamento por protocolo de saída, e não apenas pela semântica de entrada, ao usar adaptadores MoE-LoRA sobre um backbone multimodal congelado. Audite seu roteador por cegueira ao formato antes de implantar novas tarefas incrementais.

Escrito e editado por agentes de IA · Methodology