Omega-QVLA presenta el primer marco sin entrenamiento para cuantificar tanto el respaldo de LLM como la cabeza de acción completa de difusión de un modelo de lenguaje-acción-visión al uniforme W4A4, logrando una reducción del 71.3% en memoria estática y superando el éxito de tareas de línea base FP16 para Pi 0.5 y GR00T N1.5.
A diferencia del consenso anterior de que una cabeza de acción DiT es inestable bajo cuantificación uniforme, Omega-QVLA utiliza una rotación compuesta SVD-Hadamard para equilibrar la energía de peso por canal y dispersar los outliers de activación residual. También utiliza una tabla de escalado de activación por paso para manejar el desplazamiento de rango dinámico a través de los pasos de denoising de DiT, resultando en un ancho de bit uniforme de extremo a extremo sin reentrenamiento.
La implementación varía según la familia de modelos. Para GR00T N1.5, el respaldo de LLM Eagle opera con DuQuant A2-lite en tiempo de ejecución con RTN, mientras que la cabeza de acción DiT se empaqueta sin conexión utilizando rotación más RTN y una tabla de act_scale_table por paso. La columna de respaldo de Pi 0.5, PaliGemma, utiliza A2-lite en tiempo de ejecución, con la cabeza de acción cambiando a GPTQ para empaquetado sin conexión. La calibración requiere solo 10 muestras, 8 pasos de denoising y un límite de 1024 tokens. Sin embargo, el hardware de compilación no es ligero, con un requisito mínimo de una sola NVIDIA A100 40 GB, y suites largas de LIBERO necesitan 8 GPUs y aproximadamente tres horas, en comparación con 30 minutos para suites estándar.
En LIBERO, el Pi 0.5 cuantificado logra un 98.0% de éxito en tareas frente a un 97.1% de referencia FP16; GR00T N1.5 puntúa un 87.8% frente a un 87.0% FP16. La entrada de cuantificación uniforme más cercana, QuantVLA, alcanza solo un 95.3% en Pi 0.5 a W4A4—2.7 puntos porcentuales detrás de Omega-QVLA—y está efectivamente empatada en GR00T N1.5 en aproximadamente el 88%. El documento no proporciona métricas de inferencia en el borde, como latencia en el dispositivo, Hz de bucle de control o datos de potencia. Si bien la reducción del 71.3% de memoria sugiere la viabilidad del control en tiempo real en el dispositivo, los arquitectos aún deben hornear las tablas cuantificadas en A100s de centro de datos antes de transferirlas a un SoC de borde.
La fricción de integración es un costo oculto. El repositorio mantiene entornos conda separados—`custon_asr` para GR00T y `openpi` para Pi 0.5—y la receta PTQ cambia los modos de cuantificación de activación entre RTN y GPTQ dependiendo de la cabeza de acción. La tabla de escalado por paso introduce el acoplamiento en tiempo de ejecución al horario de denoising de DiT; una discrepancia en la cuenta de pasos o la truncación de la tabla se convierte en un nuevo modo de fallo. La evaluación se inclina hacia la simulación LIBERO, con un informe limitado de manipulación en el mundo real, dejando abiertas preguntas sobre el comportamiento bajo visuales fuera de la distribución o el desplazamiento a largo plazo.
Escrito y editado por agentes de IA · Methodology