OrpQuant Executa Modelos 7B em Silicon Edge Sem Multiplicadores

Um artigo publicado em 25 de maio de 2026 propõe OrpQuant — um algoritmo de Orthogonal Residual Projection (ORP) — para executar LLaMA-2-7B e Vision Transformers em silicon edge sem hardware multiplicador. A proposta: substituir operações Multiply-Accumulate (MAC) por bit-shifts e adições, manter precisão abaixo de 4-bit, e calibrar um modelo 7B em 15 minutos em uma estação de trabalho padrão.

Arrays MAC densos criam gargalo em ASICs e FPGAs edge. Quantização Power-of-Two (PoT) elimina multiplicadores — expoentes mapeiam para contagens de shift — mas a lattice exponencial não-uniforme falha em precisão sub-4-bit. Os autores identificam a causa raiz: um Low Angular Resolution Regime. Em espaço de peso de alta dimensionalidade abaixo de 4 bits, as lacunas angulares entre vetores representáveis se alargam e as variedades de características se degradam. O trabalho anterior com PoT parou aqui.

ORP resolve a geometria. Em vez de ajustar a grade de quantização, o método trata quantização como projeção dual-basis: uma basis PoT primária lida com aproximação grosseira, e uma lattice residual derivada analiticamente — construída apenas a partir de operações shift-and-add — preenche as lacunas angulares. Nenhum multiplicador entra no caminho residual. A basis residual é derivada analiticamente em vez de aprendida, permitindo calibração em 15 minutos versus horas para esquemas baseados em gradiente.

Em W3/A16 (pesos de 3-bit, ativações de 16-bit), ORP alcança perplexidade 6.10 em LLaMA-2-7B. AWQ, o baseline de 3-bit dominante, requer hardware multiplicador e scaling assimétrico para competir neste regime. ORP o iguala sem nenhum dos dois. Em 4-bit, ORP permanece competitivo. Resultados de Vision Transformer são relatados; a perplexidade de LLaMA é a métrica principal.

Síntese RTL em 28nm mostra que o caminho de dados shift-and-add de ORP reduz o caminho crítico de timing versus árvores multiplicadores densas — abordando diretamente o problema de timing closure em ASIC que bloqueia inferência LLM sub-4-bit em silicon customizado. FPGAs ganham similarmente: operações shift não consomem blocos DSP versus multiplicadores.

Limitações: ORP mantém ativações em 16 bits em W3/A16. Inferência ultra-low-bit completa (W3/A3 ou W4/A4) não é demonstrada. Calibração requer 15 minutos e um dataset de calibração; deployment zero-shot em nós resource-constrained sem calibração não é endereçado. A síntese em 28nm é uma estimativa de standard-cell, não silicon tape-out, então as margens de timing no mundo real podem variar.

Para equipes construindo inferência on-device em ASICs customizados, FPGAs, ou microcontroladores sem blocos DSP, ORP permite quantização low-bit sem rearquitetar hardware. A calibração em 15 minutos e o solver analítico reduzem fricção para swaps de modelo. Em W3/A16, perplexidade é suficiente para muitas tarefas NLP edge. Verifique os requisitos de ativação em seu pipeline antes de se comprometer — o sweet spot de ORP é pesos low-bit, ativações full-precision.

Sources

ORP achieves a perplexity of 6.10 on LLaMA-2-7B at W3/A16, without asymmetric scaling, comparing favourably to MAC-intensive baseline AWQ
"Under the 3-bit (W3/A16) constraint, ORP achieves a perplexity of 6.10 on LLaMA-2-7B, comparing favorably to conventional MAC-intensive baselines like AWQ without relying on asymmetric scaling"
arxiv.org ↗
ORP's analytical solver reduces full-model calibration time for LLaMA-2-7B to approximately 15 minutes
"ORP's analytical solver offers a practical alternative to computationally intensive gradient-based optimization, reducing the full-model calibration time for LLaMA-2-7B to approximately 15 minutes"
arxiv.org ↗
Standard-cell RTL synthesis at a 28nm node shows ORP mitigates timing bottlenecks associated with dense multiplier trees
"standard-cell RTL synthesis at a 28nm node indicates that ORP effectively mitigates the timing bottlenecks associated with dense multiplier trees"
arxiv.org ↗
PoT quantization below 4-bit suffers a Low Angular Resolution Regime — a structural flaw causing degradation of high-dimensional feature manifolds
"the non-uniform exponential lattice is inherently limited by a Low Angular Resolution Regime, a structural flaw that becomes particularly pronounced at sub-4-bit thresholds, leading to a notable degradation of high-dimensional feature manifolds"
arxiv.org ↗
ORP synthesises a higher-resolution residual lattice using strictly shift-and-add operations, replacing multiply-accumulate hardware
"ORP adaptively synthesizes a higher-resolution residual lattice using strictly shift-and-add operations"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

OrpQuant Executa Modelos 7B em Silicon Edge Sem Multiplicadores

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.