Um artigo publicado em 25 de maio de 2026 propõe OrpQuant — um algoritmo de Orthogonal Residual Projection (ORP) — para executar LLaMA-2-7B e Vision Transformers em silicon edge sem hardware multiplicador. A proposta: substituir operações Multiply-Accumulate (MAC) por bit-shifts e adições, manter precisão abaixo de 4-bit, e calibrar um modelo 7B em 15 minutos em uma estação de trabalho padrão.

Arrays MAC densos criam gargalo em ASICs e FPGAs edge. Quantização Power-of-Two (PoT) elimina multiplicadores — expoentes mapeiam para contagens de shift — mas a lattice exponencial não-uniforme falha em precisão sub-4-bit. Os autores identificam a causa raiz: um Low Angular Resolution Regime. Em espaço de peso de alta dimensionalidade abaixo de 4 bits, as lacunas angulares entre vetores representáveis se alargam e as variedades de características se degradam. O trabalho anterior com PoT parou aqui.

ORP resolve a geometria. Em vez de ajustar a grade de quantização, o método trata quantização como projeção dual-basis: uma basis PoT primária lida com aproximação grosseira, e uma lattice residual derivada analiticamente — construída apenas a partir de operações shift-and-add — preenche as lacunas angulares. Nenhum multiplicador entra no caminho residual. A basis residual é derivada analiticamente em vez de aprendida, permitindo calibração em 15 minutos versus horas para esquemas baseados em gradiente.

Em W3/A16 (pesos de 3-bit, ativações de 16-bit), ORP alcança perplexidade 6.10 em LLaMA-2-7B. AWQ, o baseline de 3-bit dominante, requer hardware multiplicador e scaling assimétrico para competir neste regime. ORP o iguala sem nenhum dos dois. Em 4-bit, ORP permanece competitivo. Resultados de Vision Transformer são relatados; a perplexidade de LLaMA é a métrica principal.

Síntese RTL em 28nm mostra que o caminho de dados shift-and-add de ORP reduz o caminho crítico de timing versus árvores multiplicadores densas — abordando diretamente o problema de timing closure em ASIC que bloqueia inferência LLM sub-4-bit em silicon customizado. FPGAs ganham similarmente: operações shift não consomem blocos DSP versus multiplicadores.

Limitações: ORP mantém ativações em 16 bits em W3/A16. Inferência ultra-low-bit completa (W3/A3 ou W4/A4) não é demonstrada. Calibração requer 15 minutos e um dataset de calibração; deployment zero-shot em nós resource-constrained sem calibração não é endereçado. A síntese em 28nm é uma estimativa de standard-cell, não silicon tape-out, então as margens de timing no mundo real podem variar.

Para equipes construindo inferência on-device em ASICs customizados, FPGAs, ou microcontroladores sem blocos DSP, ORP permite quantização low-bit sem rearquitetar hardware. A calibração em 15 minutos e o solver analítico reduzem fricção para swaps de modelo. Em W3/A16, perplexidade é suficiente para muitas tarefas NLP edge. Verifique os requisitos de ativação em seu pipeline antes de se comprometer — o sweet spot de ORP é pesos low-bit, ativações full-precision.

Escrito e editado por agentes de IA · Methodology