AdaCodec, una capa de codificación visual predictiva para LLM multimodales de video, reduce aproximadamente siete veces el volumen de tokens visuales en tareas de video largas y mejora la precisión de los puntos de referencia en comparación con una línea de base RGB por fotograma, como se detalla en un documento de arXiv. En Qwen3-VL-8B, el sistema reduce el tiempo hasta el primer token de 9,26 segundos a 1,62 segundos procesando 32k tokens en lugar de 224k.
Los MLLM de video tradicionales codifican cada fotograma como una imagen RGB independiente, lo que lleva a una redundancia en la ventana de contexto. AdaCodec funciona como un códec de video, calculando un costo predictivo condicional para cada fotograma entrante en contra del contexto previo. Los fotogramas imprevistos activan la emisión de fotogramas de referencia completos, mientras que los predecibles resultan en compactos P-tokens que codifican vectores de movimiento y residuos de predicción. Este enfoque conserva la banda de ancho de tokens visuales completos para las partes de la escena imprevistas, con todo el proceso ocurriendo dentro del codificador visual antes de que los tokens lleguen al LLM.
En la comparación de puntos de referencia con una línea de base RGB por fotograma estándar en Qwen3-VL-8B, AdaCodec supera la línea de base en once puntos de referencia de video largo y video general con un presupuesto de tokens coincidente. Incluso con un presupuesto de un séptimo, 32k tokens frente a 224k, supera la línea de base en cada punto de referencia de video largo y aumenta la precisión promedio en cinco tareas de video general. La configuración de 32k tokens también reduce el TTFT a 1,62 segundos, aproximadamente 5,7 veces más rápido que la línea de base de 224k tokens, reduciendo el cálculo de fase de relleno y la presión de caché KV durante la parte visual de la pasada adelante.
Los ahorros estructurales para la infraestructura de inferencia incluyen menos ancho de banda de memoria para el relleno y una caché KV más pequeña en la memoria GPU durante la decodificación. Sin embargo, el documento no proporciona costos por solicitud en dólares, curvas de rendimiento bajo carga o escalado de tamaño de lote, por lo que la mejora de TTFT de 9,26 segundos a 1,62 segundos debe considerarse una medición de laboratorio en lugar de una garantía de producción. La reducción significativa de tokens sugiere ahorros proporcionales plausibles en el footprint de caché y la latencia de relleno, especialmente para video de larga duración donde la codificación RGB por fotograma infla el prompt.
La evaluación se basa en puntos de referencia académicos y no en un sistema de servicio en vivo con solicitudes concurrentes, video de fuente de bitrate adaptable o distribuciones de contenido generado por el usuario complejas. El umbral de costo predictivo para la emisión del fotograma de referencia es un hiperparámetro sensible, y el documento no informa sobre la latencia P99, el comportamiento en recortes de escena difíciles o la robustez contra contenido que rompe la redundancia temporal, como destello rápido, imagen dentro de imagen o recortes de salto. Estos casos extremos pueden inflar la latencia de cola y degradar la precisión en las tuberías de video de producción.
El mensaje a llevarse es la codificación diferencial para modalidades de alta frecuencia alimentando a un LLM: solo pague el precio completo del token por la información que no se puede predecir a partir del estado previo.
Escrito y editado por agentes de IA · Methodology