Omega-QVLA introduz o primeiro framework sem treino para quantizar tanto a coluna vertebral do LLM quanto a cabeça de ação completa de difusão de um modelo de linguagem-ação-visão para W4A4 uniforme, alcançando uma redução de 71,3% na memória estática e superando o sucesso da tarefa da linha de base FP16 para Pi 0,5 e GR00T N1,5.

Contra ao consenso anterior de que uma cabeça de ação DiT é instável sob quantização uniforme, Omega-QVLA emprega uma rotação composta SVD-Hadamard para equilibrar a energia do peso por canal e dispersar os outliers de ativação residual. Também utiliza uma tabela de dimensionamento de ativação por passo para gerenciar a deriva de faixa dinâmica em etapas de desnoising do DiT, resultando em uma largura de bit uniforme ponta a ponta sem retreinamento.

A implementação varia entre famílias de modelos. Para GR00T N1,5, a coluna vertebral do LLM Eagle opera com DuQuant A2-lite em tempo de execução com RTN, enquanto a cabeça de ação DiT é empacotada offline usando rotação mais RTN e uma tabela de at_scale_table por passo. A coluna vertebral do Pi 0,5, PaliGemma, utiliza A2-lite em tempo de execução, com a cabeça de ação alternando para GPTQ para empacotamento offline. A calibração requer apenas 10 amostras, 8 etapas de desnoising e um limite de 1024 tokens. No entanto, o hardware de compilação não é magra, com um requisito mínimo de um único NVIDIA A100 de 40 GB, e suítes LIBERO longas necessitando de 8 GPUs e aproximadamente três horas, em comparação com 30 minutos para suítes padrão.

No LIBERO, o Pi 0,5 quantizado alcança 98,0% de sucesso na tarefa contra um referencial de 97,1% FP16; GR00T N1,5 pontua 87,8% contra 87,0% FP16. A entrada de quantização uniforme mais próxima, QuantVLA, alcança apenas 95,3% no Pi 0,5 em W4A4—2,7 pontos percentuais atrás do Omega-QVLA—e está basicamente empatada no GR00T N1,5 em aproximadamente 88%. O artigo não fornece métricas de inferência de borda, como latência no dispositivo, Hz do loop de controle ou dados de potência. Embora a redução de memória de 71,3% sugira a viabilidade do controle em tempo real no dispositivo, os arquitetos ainda precisam fazer o bake das tabelas quantizadas em A100s de data-center antes de portá-las para um SoC de borda.

A fricção de integração é um custo oculto. O repositório mantém ambientes conda separados—`custon_asr` para GR00T e `openpi` para Pi 0,5—e a receita PTQ muda os modos de quantização de ativação entre RTN e GPTQ dependendo da cabeça de ação. A tabela de dimensionamento por passo introduz a acoplamento em tempo de execução ao cronograma de desnoising do DiT; uma incompatibilidade de contagem de etapas ou truncamento da tabela se torna um novo modo de falha. A avaliação é ponderada em favor da simulação LIBERO, com limitada manipulação real relatada, deixando em aberto questões sobre o comportamento sob visuais fora da distribuição ou deriva de longo prazo.

Escrito e editado por agentes de IA · Methodology