Omega-QVLA Reduce el Modelo de Visión de Robot por 71% Sin Reentrenamiento

Omega-QVLA presenta el primer marco sin entrenamiento para cuantificar tanto el respaldo de LLM como la cabeza de acción completa de difusión de un modelo de lenguaje-acción-visión al uniforme W4A4, logrando una reducción del 71.3% en memoria estática y superando el éxito de tareas de línea base FP16 para Pi 0.5 y GR00T N1.5.

A diferencia del consenso anterior de que una cabeza de acción DiT es inestable bajo cuantificación uniforme, Omega-QVLA utiliza una rotación compuesta SVD-Hadamard para equilibrar la energía de peso por canal y dispersar los outliers de activación residual. También utiliza una tabla de escalado de activación por paso para manejar el desplazamiento de rango dinámico a través de los pasos de denoising de DiT, resultando en un ancho de bit uniforme de extremo a extremo sin reentrenamiento.

La implementación varía según la familia de modelos. Para GR00T N1.5, el respaldo de LLM Eagle opera con DuQuant A2-lite en tiempo de ejecución con RTN, mientras que la cabeza de acción DiT se empaqueta sin conexión utilizando rotación más RTN y una tabla de act_scale_table por paso. La columna de respaldo de Pi 0.5, PaliGemma, utiliza A2-lite en tiempo de ejecución, con la cabeza de acción cambiando a GPTQ para empaquetado sin conexión. La calibración requiere solo 10 muestras, 8 pasos de denoising y un límite de 1024 tokens. Sin embargo, el hardware de compilación no es ligero, con un requisito mínimo de una sola NVIDIA A100 40 GB, y suites largas de LIBERO necesitan 8 GPUs y aproximadamente tres horas, en comparación con 30 minutos para suites estándar.

En LIBERO, el Pi 0.5 cuantificado logra un 98.0% de éxito en tareas frente a un 97.1% de referencia FP16; GR00T N1.5 puntúa un 87.8% frente a un 87.0% FP16. La entrada de cuantificación uniforme más cercana, QuantVLA, alcanza solo un 95.3% en Pi 0.5 a W4A4—2.7 puntos porcentuales detrás de Omega-QVLA—y está efectivamente empatada en GR00T N1.5 en aproximadamente el 88%. El documento no proporciona métricas de inferencia en el borde, como latencia en el dispositivo, Hz de bucle de control o datos de potencia. Si bien la reducción del 71.3% de memoria sugiere la viabilidad del control en tiempo real en el dispositivo, los arquitectos aún deben hornear las tablas cuantificadas en A100s de centro de datos antes de transferirlas a un SoC de borde.

La fricción de integración es un costo oculto. El repositorio mantiene entornos conda separados—`custon_asr` para GR00T y `openpi` para Pi 0.5—y la receta PTQ cambia los modos de cuantificación de activación entre RTN y GPTQ dependiendo de la cabeza de acción. La tabla de escalado por paso introduce el acoplamiento en tiempo de ejecución al horario de denoising de DiT; una discrepancia en la cuenta de pasos o la truncación de la tabla se convierte en un nuevo modo de fallo. La evaluación se inclina hacia la simulación LIBERO, con un informe limitado de manipulación en el mundo real, dejando abiertas preguntas sobre el comportamiento bajo visuales fuera de la distribución o el desplazamiento a largo plazo.

Sources

Omega-QVLA achieves 98.0% task success on Pi 0.5 at W4A4 vs 97.1% FP16 reference, and 87.8% on GR00T N1.5 vs 87.0% FP16, while reducing static memory by 71.3%
"Omega-QVLA compresses Pi 0.5 and GR00T N1.5 to W4A4 with 98.0% and 87.8% task success rates, matching or exceeding their FP16 references of 97.1% and 87.0%, while reducing the static memory footprint by 71.3%."
arxiv.org ↗
Omega-QVLA is the first training-free PTQ framework to compress both the LLM backbone and full DiT action head to uniform W4A4, eliminating mixed-precision allocation
"the first training-free post-training quantization framework that compresses both the language backbone and the entire diffusion action head of a VLA model to a uniform W4A4 precision, eliminating the need for mixed-precision allocation"
arxiv.org ↗
Omega-QVLA uses composite SVD-Hadamard rotation and per-step DiT activation scaling to stabilize uniform W4A4 quantization
"Omega-QVLA combines a composite SVD-Hadamard rotation that equalizes per-channel weight energy while diffusing residual activation outliers with per-step DiT activation scaling quantization that absorbs dynamic-range drift across denoising steps."
arxiv.org ↗
Minimum hardware for building Omega-QVLA quantized packs is 1× NVIDIA A100 40 GB; long LIBERO suites require 8 GPUs and ~3 hours
"1× NVIDIA A100 (40GB) minimum for build; 4–8× recommended for parallel multi-suite eval... For long use GPU_LIST=0,1,2,3,4,5,6,7 (8 shards) — ~3 h/suite vs ~30 min for the other three."
github.com ↗
GR00T N1.5 DiT pack calibration uses 10 samples, 8 denoising steps, and a 1024-token cap with the A2-lite rotation + RTN + per-step act_scale_table recipe
"--num-samples 10 --token-cap 1024 --num-steps 8 \ --svd-rank 0 --use-rtn"
github.com ↗
QVLA (prior art, ICLR '26) leaves the projector and action head at full BF16 precision to preserve control stability
"The projector and action head remain in full BF16 precision to preserve control stability."
arxiv.org ↗
Competing QuantVLA achieves only 95.3% on Pi 0.5 at W4A4, 2.7 percentage points below Omega-QVLA's 98.0%
"achieving 95.3% average success rate at W4A4, which demonstrates stable behavior under aggressive quantization"
arxiv.org ↗
QuantVLA reaches 88.0% on GR00T N1.5 at W4A4 with 8 denoising steps, effectively tied with Omega-QVLA's 87.8%
"QuantVLA consistently matches or exceeds the baseline, reaching 88.0% average success at 8 steps"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Omega-QVLA Reduce el Modelo de Visión de Robot por 71% Sin Reentrenamiento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.