Omega-QVLA Reduz Memória do Modelo de Visão de Robô em 71% Sem Retreinamento

Omega-QVLA introduz o primeiro framework sem treino para quantizar tanto a coluna vertebral do LLM quanto a cabeça de ação completa de difusão de um modelo de linguagem-ação-visão para W4A4 uniforme, alcançando uma redução de 71,3% na memória estática e superando o sucesso da tarefa da linha de base FP16 para Pi 0,5 e GR00T N1,5.

Contra ao consenso anterior de que uma cabeça de ação DiT é instável sob quantização uniforme, Omega-QVLA emprega uma rotação composta SVD-Hadamard para equilibrar a energia do peso por canal e dispersar os outliers de ativação residual. Também utiliza uma tabela de dimensionamento de ativação por passo para gerenciar a deriva de faixa dinâmica em etapas de desnoising do DiT, resultando em uma largura de bit uniforme ponta a ponta sem retreinamento.

A implementação varia entre famílias de modelos. Para GR00T N1,5, a coluna vertebral do LLM Eagle opera com DuQuant A2-lite em tempo de execução com RTN, enquanto a cabeça de ação DiT é empacotada offline usando rotação mais RTN e uma tabela de at_scale_table por passo. A coluna vertebral do Pi 0,5, PaliGemma, utiliza A2-lite em tempo de execução, com a cabeça de ação alternando para GPTQ para empacotamento offline. A calibração requer apenas 10 amostras, 8 etapas de desnoising e um limite de 1024 tokens. No entanto, o hardware de compilação não é magra, com um requisito mínimo de um único NVIDIA A100 de 40 GB, e suítes LIBERO longas necessitando de 8 GPUs e aproximadamente três horas, em comparação com 30 minutos para suítes padrão.

No LIBERO, o Pi 0,5 quantizado alcança 98,0% de sucesso na tarefa contra um referencial de 97,1% FP16; GR00T N1,5 pontua 87,8% contra 87,0% FP16. A entrada de quantização uniforme mais próxima, QuantVLA, alcança apenas 95,3% no Pi 0,5 em W4A4—2,7 pontos percentuais atrás do Omega-QVLA—e está basicamente empatada no GR00T N1,5 em aproximadamente 88%. O artigo não fornece métricas de inferência de borda, como latência no dispositivo, Hz do loop de controle ou dados de potência. Embora a redução de memória de 71,3% sugira a viabilidade do controle em tempo real no dispositivo, os arquitetos ainda precisam fazer o bake das tabelas quantizadas em A100s de data-center antes de portá-las para um SoC de borda.

A fricção de integração é um custo oculto. O repositório mantém ambientes conda separados—`custon_asr` para GR00T e `openpi` para Pi 0,5—e a receita PTQ muda os modos de quantização de ativação entre RTN e GPTQ dependendo da cabeça de ação. A tabela de dimensionamento por passo introduz a acoplamento em tempo de execução ao cronograma de desnoising do DiT; uma incompatibilidade de contagem de etapas ou truncamento da tabela se torna um novo modo de falha. A avaliação é ponderada em favor da simulação LIBERO, com limitada manipulação real relatada, deixando em aberto questões sobre o comportamento sob visuais fora da distribuição ou deriva de longo prazo.

Sources

Omega-QVLA achieves 98.0% task success on Pi 0.5 at W4A4 vs 97.1% FP16 reference, and 87.8% on GR00T N1.5 vs 87.0% FP16, while reducing static memory by 71.3%
"Omega-QVLA compresses Pi 0.5 and GR00T N1.5 to W4A4 with 98.0% and 87.8% task success rates, matching or exceeding their FP16 references of 97.1% and 87.0%, while reducing the static memory footprint by 71.3%."
arxiv.org ↗
Omega-QVLA is the first training-free PTQ framework to compress both the LLM backbone and full DiT action head to uniform W4A4, eliminating mixed-precision allocation
"the first training-free post-training quantization framework that compresses both the language backbone and the entire diffusion action head of a VLA model to a uniform W4A4 precision, eliminating the need for mixed-precision allocation"
arxiv.org ↗
Omega-QVLA uses composite SVD-Hadamard rotation and per-step DiT activation scaling to stabilize uniform W4A4 quantization
"Omega-QVLA combines a composite SVD-Hadamard rotation that equalizes per-channel weight energy while diffusing residual activation outliers with per-step DiT activation scaling quantization that absorbs dynamic-range drift across denoising steps."
arxiv.org ↗
Minimum hardware for building Omega-QVLA quantized packs is 1× NVIDIA A100 40 GB; long LIBERO suites require 8 GPUs and ~3 hours
"1× NVIDIA A100 (40GB) minimum for build; 4–8× recommended for parallel multi-suite eval... For long use GPU_LIST=0,1,2,3,4,5,6,7 (8 shards) — ~3 h/suite vs ~30 min for the other three."
github.com ↗
GR00T N1.5 DiT pack calibration uses 10 samples, 8 denoising steps, and a 1024-token cap with the A2-lite rotation + RTN + per-step act_scale_table recipe
"--num-samples 10 --token-cap 1024 --num-steps 8 \ --svd-rank 0 --use-rtn"
github.com ↗
QVLA (prior art, ICLR '26) leaves the projector and action head at full BF16 precision to preserve control stability
"The projector and action head remain in full BF16 precision to preserve control stability."
arxiv.org ↗
Competing QuantVLA achieves only 95.3% on Pi 0.5 at W4A4, 2.7 percentage points below Omega-QVLA's 98.0%
"achieving 95.3% average success rate at W4A4, which demonstrates stable behavior under aggressive quantization"
arxiv.org ↗
QuantVLA reaches 88.0% on GR00T N1.5 at W4A4 with 8 denoising steps, effectively tied with Omega-QVLA's 87.8%
"QuantVLA consistently matches or exceeds the baseline, reaching 88.0% average success at 8 steps"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Omega-QVLA Reduz Memória do Modelo de Visão de Robô em 71% Sem Retreinamento

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.