AdaCodec reduz carga de token de vídeo em 7× com codificação preditiva

AdaCodec, uma camada de codificação visual preditiva para LLMs multimodais de vídeo, reduz o volume de tokens visuais aproximadamente sete vezes em tarefas de vídeo longo e melhora a precisão do benchmark em comparação com uma linha de base RGB por quadro, conforme detalhado em um artigo arXiv. No Qwen3-VL-8B, o sistema diminui o tempo-até-o-primeiro-token de 9,26 segundos para 1,62 segundos processando 32k tokens em vez de 224k.

MLLMs de vídeo tradicionais codificam cada quadro como uma imagem RGB independente, levando à redundância na janela de contexto. AdaCodec funciona como um codec de vídeo, calculando um custo preditivo condicional para cada quadro recebido em relação ao contexto anterior. Quadros imprevisíveis acionam a emissão de quadros de referência completos, enquanto os previsíveis resultam em compactos P-tokens codificando vetores de movimento e resíduos de previsão. Esta abordagem economiza a largura de banda total de tokens visuais para partes da cena imprevisíveis, com todo o processo ocorrendo dentro do codificador visual antes que os tokens cheguem ao LLM.

Em benchmarking no Qwen3-VL-8B contra uma linha de base padrão por quadro RGB, AdaCodec supera a linha de base em onze benchmarks de vídeo longo e vídeo geral com um orçamento de tokens correspondente. Mesmo com um orçamento de um sétimo — 32k tokens versus 224k — ela supera a linha de base em todos os benchmarks de vídeo longo e aumenta a precisão média em cinco tarefas de vídeo geral. A configuração de 32k tokens também reduz o TTFT para 1,62 segundos, aproximadamente 5,7 vezes mais rápido que a linha de base de 224k tokens, reduzindo o cálculo da fase de pré-preenchimento e a pressão do cache KV durante a parte visual da passagem para a frente.

Economias estruturais para a infraestrutura de inferência incluem menos largura de banda de memória para pré-preenchimento e um cache KV menor na memória GPU durante a decodificação. No entanto, o artigo não fornece custos por solicitação, curvas de throughput sob carga ou dimensionamento de tamanho de lote, então a melhoria de 9,26 segundos para 1,62 segundos no TTFT deve ser considerada uma medição de laboratório e não uma garantia de produção. A redução significativa de tokens sugere economias proporcionais plausíveis no cache e na latência de pré-preenchimento, especialmente para vídeo de longa duração onde a codificação RGB por quadro infla o prompt.

A avaliação é baseada em benchmarks acadêmicos e não em um sistema de serviço ao vivo com solicitações simultâneas, vídeo de fonte com taxa de bits adaptável ou distribuições complexas de conteúdo gerado pelo usuário. O limite de custo preditivo para a emissão do quadro de referência é um hiperparâmetro sensível, e o artigo não relata latência P99, comportamento em cortes de cena difíceis ou robustez contra conteúdo que quebra a redundância temporal — como flashes rápidos, picture-in-picture ou cortes de salto. Esses casos extremos podem inflar a latência de cauda e degradar a precisão em pipelines de vídeo de produção.

A mensagem a ser levada é codificação diferencial para modilidades de alta frequência alimentando um LLM: pague o preço total do token apenas pela informação que não pode ser prevista do estado anterior.

Sources

AdaCodec reduces time-to-first-token from 9.26s to 1.62s on Qwen3-VL-8B by feeding the model 32k tokens instead of 224k
"cutting time-to-first-token from 9.26s to 1.62s"
arxiv.org ↗
At 1/7 the token budget (32k vs 224k), AdaCodec surpasses the per-frame RGB baseline on all long-video benchmarks
"Even at 1/7 the budget, AdaCodec with 32k tokens surpasses the 224k baseline on all long-video benchmarks"
arxiv.org ↗
AdaCodec improves over the Qwen3-VL-8B per-frame RGB baseline across all eleven benchmarks at a matched visual-token budget
"Across all eleven benchmarks, AdaCodec improves over the Qwen3-VL-8B per-frame RGB baseline at a matched visual-token budget"
arxiv.org ↗
AdaCodec emits compact P-tokens encoding motion vectors and prediction residuals when a frame can be predicted from prior context
"it encodes inter-frame changes, including motion and prediction residuals, as compact P-tokens"
arxiv.org ↗
AdaCodec emits a full reference frame only when its conditional predictive cost against prior context is high
"AdaCodec spends full visual tokens on a reference frame only when its conditional predictive cost is high"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

AdaCodec reduz carga de token de vídeo em 7× com codificação preditiva

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.