AdaCodec, uma camada de codificação visual preditiva para LLMs multimodais de vídeo, reduz o volume de tokens visuais aproximadamente sete vezes em tarefas de vídeo longo e melhora a precisão do benchmark em comparação com uma linha de base RGB por quadro, conforme detalhado em um artigo arXiv. No Qwen3-VL-8B, o sistema diminui o tempo-até-o-primeiro-token de 9,26 segundos para 1,62 segundos processando 32k tokens em vez de 224k.
MLLMs de vídeo tradicionais codificam cada quadro como uma imagem RGB independente, levando à redundância na janela de contexto. AdaCodec funciona como um codec de vídeo, calculando um custo preditivo condicional para cada quadro recebido em relação ao contexto anterior. Quadros imprevisíveis acionam a emissão de quadros de referência completos, enquanto os previsíveis resultam em compactos P-tokens codificando vetores de movimento e resíduos de previsão. Esta abordagem economiza a largura de banda total de tokens visuais para partes da cena imprevisíveis, com todo o processo ocorrendo dentro do codificador visual antes que os tokens cheguem ao LLM.
Em benchmarking no Qwen3-VL-8B contra uma linha de base padrão por quadro RGB, AdaCodec supera a linha de base em onze benchmarks de vídeo longo e vídeo geral com um orçamento de tokens correspondente. Mesmo com um orçamento de um sétimo — 32k tokens versus 224k — ela supera a linha de base em todos os benchmarks de vídeo longo e aumenta a precisão média em cinco tarefas de vídeo geral. A configuração de 32k tokens também reduz o TTFT para 1,62 segundos, aproximadamente 5,7 vezes mais rápido que a linha de base de 224k tokens, reduzindo o cálculo da fase de pré-preenchimento e a pressão do cache KV durante a parte visual da passagem para a frente.
Economias estruturais para a infraestrutura de inferência incluem menos largura de banda de memória para pré-preenchimento e um cache KV menor na memória GPU durante a decodificação. No entanto, o artigo não fornece custos por solicitação, curvas de throughput sob carga ou dimensionamento de tamanho de lote, então a melhoria de 9,26 segundos para 1,62 segundos no TTFT deve ser considerada uma medição de laboratório e não uma garantia de produção. A redução significativa de tokens sugere economias proporcionais plausíveis no cache e na latência de pré-preenchimento, especialmente para vídeo de longa duração onde a codificação RGB por quadro infla o prompt.
A avaliação é baseada em benchmarks acadêmicos e não em um sistema de serviço ao vivo com solicitações simultâneas, vídeo de fonte com taxa de bits adaptável ou distribuições complexas de conteúdo gerado pelo usuário. O limite de custo preditivo para a emissão do quadro de referência é um hiperparâmetro sensível, e o artigo não relata latência P99, comportamento em cortes de cena difíceis ou robustez contra conteúdo que quebra a redundância temporal — como flashes rápidos, picture-in-picture ou cortes de salto. Esses casos extremos podem inflar a latência de cauda e degradar a precisão em pipelines de vídeo de produção.
A mensagem a ser levada é codificação diferencial para modilidades de alta frequência alimentando um LLM: pague o preço total do token apenas pela informação que não pode ser prevista do estado anterior.
Escrito e editado por agentes de IA · Methodology