OrpQuant Ejecuta Modelos 7B en Silicon Edge Sin Multiplicadores

Un artículo publicado el 25 de mayo de 2026 propone OrpQuant — un algoritmo de Orthogonal Residual Projection (ORP) — para ejecutar LLaMA-2-7B y Vision Transformers en silicon edge sin hardware multiplicador. La propuesta: reemplazar operaciones Multiply-Accumulate (MAC) con bit-shifts y adiciones, mantener precisión por debajo de 4-bit, y calibrar un modelo 7B en 15 minutos en una estación de trabajo estándar.

Los arrays MAC densos generan un cuello de botella en ASICs y FPGAs edge. La cuantificación Power-of-Two (PoT) elimina multiplicadores — los exponentes se asignan a conteos de shift — pero la lattice exponencial no uniforme falla en precisión sub-4-bit. Los autores identifican la causa raíz: un Low Angular Resolution Regime. En espacio de peso de alta dimensionalidad por debajo de 4 bits, las brechas angulares entre vectores representables se amplían y los manifiestos de características se degradan. El trabajo anterior con PoT se detuvo aquí.

ORP resuelve la geometría. En lugar de ajustar la grilla de cuantificación, el método trata la cuantificación como proyección dual-basis: una basis PoT primaria maneja la aproximación gruesa, y una lattice residual derivada analíticamente — construida solo a partir de operaciones shift-and-add — rellena las brechas angulares. Ningún multiplicador entra en el camino residual. La basis residual se deriva analíticamente en lugar de aprenderse, permitiendo calibración en 15 minutos versus horas para esquemas basados en gradientes.

En W3/A16 (pesos de 3-bit, activaciones de 16-bit), ORP logra una perplejidad de 6.10 en LLaMA-2-7B. AWQ, la baseline de 3-bit dominante, requiere hardware multiplicador y escalado asimétrico para competir en este régimen. ORP lo iguala sin ninguno de los dos. En 4-bit, ORP permanece competitivo. Se reportan resultados de Vision Transformer; la perplejidad de LLaMA es la métrica principal.

La síntesis RTL en 28nm muestra que el camino de datos shift-and-add de ORP reduce el camino crítico de timing versus árboles multiplicadores densos — abordando directamente el problema de timing closure en ASIC que bloquea la inferencia LLM sub-4-bit en silicon personalizado. Los FPGAs se benefician similarmente: las operaciones shift no consumen bloques DSP versus multiplicadores.

Limitaciones: ORP mantiene activaciones en 16 bits en W3/A16. La inferencia ultra-low-bit completa (W3/A3 o W4/A4) no se demuestra. La calibración requiere 15 minutos y un dataset de calibración; la implementación zero-shot en nodos con restricciones de recursos sin calibración no se aborda. La síntesis en 28nm es una estimación de estándar-cell, no silicon tape-out, por lo que los márgenes de timing en el mundo real pueden variar.

Para equipos que construyen inferencia on-device en ASICs personalizados, FPGAs, o microcontroladores sin bloques DSP, ORP permite cuantificación low-bit sin rediseñar hardware. La calibración en 15 minutos y el solver analítico reducen la fricción para cambios de modelo. En W3/A16, la perplejidad es suficiente para muchas tareas NLP edge. Verifique los requisitos de activación en su pipeline antes de comprometerse — el punto dulce de ORP es pesos low-bit, activaciones full-precision.

Sources

ORP achieves a perplexity of 6.10 on LLaMA-2-7B at W3/A16, without asymmetric scaling, comparing favourably to MAC-intensive baseline AWQ
"Under the 3-bit (W3/A16) constraint, ORP achieves a perplexity of 6.10 on LLaMA-2-7B, comparing favorably to conventional MAC-intensive baselines like AWQ without relying on asymmetric scaling"
arxiv.org ↗
ORP's analytical solver reduces full-model calibration time for LLaMA-2-7B to approximately 15 minutes
"ORP's analytical solver offers a practical alternative to computationally intensive gradient-based optimization, reducing the full-model calibration time for LLaMA-2-7B to approximately 15 minutes"
arxiv.org ↗
Standard-cell RTL synthesis at a 28nm node shows ORP mitigates timing bottlenecks associated with dense multiplier trees
"standard-cell RTL synthesis at a 28nm node indicates that ORP effectively mitigates the timing bottlenecks associated with dense multiplier trees"
arxiv.org ↗
PoT quantization below 4-bit suffers a Low Angular Resolution Regime — a structural flaw causing degradation of high-dimensional feature manifolds
"the non-uniform exponential lattice is inherently limited by a Low Angular Resolution Regime, a structural flaw that becomes particularly pronounced at sub-4-bit thresholds, leading to a notable degradation of high-dimensional feature manifolds"
arxiv.org ↗
ORP synthesises a higher-resolution residual lattice using strictly shift-and-add operations, replacing multiply-accumulate hardware
"ORP adaptively synthesizes a higher-resolution residual lattice using strictly shift-and-add operations"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

OrpQuant Ejecuta Modelos 7B en Silicon Edge Sin Multiplicadores

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.