Chip de Stanford Reduz Energia de Inferência a Um Setenta Avos do Custo de CPU

Pesquisadores de Stanford construíram um chip que processa workloads esparsos e densos consumindo um setenta avos da energia de uma CPU e computando oito vezes mais rápido em média. O trabalho, detalhado em IEEE Spectrum, coloca hardware nativo de esparsidade em um caminho de produção pela primeira vez.

O chip explora uma propriedade estrutural em redes neurais treinadas: a maioria dos pesos e ativações são zero ou próximos o suficiente de zero para serem tratados como tal sem degradar acurácia. Multiplique um valor por zero e você obtém zero; adicione zero e nada muda. Qualquer hardware que identifique e pule essas operações obtém a resposta por uma fração do custo. A equipe de Stanford engenheirou o stack completo—silício, firmware e software—para explorar essa propriedade em cada tipo de workload, não apenas padrões estruturados estreitos.

Cerebras demonstrou dois anos atrás que 70 a 80 por cento dos parâmetros em um modelo de linguagem grande podem ser forçados a zero sem perda de acurácia mensurável. A equipe validou isso em Llama 7B open-source de Meta e argumentou que se estende a modelos como ChatGPT e Claude. Se essas razões de esparsidade se sustentarem em escala, a computação e as economias de memória se compõem dramaticamente. O lançamento mais recente de Llama de Meta atingiu 2 trilhões de parâmetros.

Armazenar uma matriz esparsa em um formato de fibertree comprimido ao invés de uma grade densa corta memória proporcionalmente ao nível de esparsidade, reduzindo tanto o custo para armazenar pesos quanto o custo energético para movê-los através de barramentos de memória.

Para equipes de infraestrutura empresarial, a implicação arquitetural é direta. Clusters de GPU atuais são motores de computação densa que não pulam nativamente operações com valores zero. O suporte de sparse tensor core de NVIDIA, adicionado em Ampere, processa apenas esparsidade estruturada 2:4—exatamente dois não-zeros em cada grupo de quatro pesos—um padrão que deve ser deliberadamente treinado em um modelo. O chip de Stanford e a classe mais ampla de motores de esparsidade dinâmica que representa processariam esparsidade não estruturada e de ativação em tempo de execução sem requerer que o modelo se conforme a um padrão fixo. Esparsidade de ativação, onde outputs de camadas intermediárias são zero dependendo da entrada, só pode ser explorada dinamicamente, não baked in no tempo de treinamento.

Custo por token orienta decisões de infraestrutura de inferência. Hardware nativo de esparsidade o melhora de duas formas: menor energia por operação e menos operações por token. Para deployments em grande escala executando inferência LLM continuamente, até mesmo uma melhoria de 5× em eficiência energética muda a unit economics de inferência on-premises versus cloud materialmente.

O chip de Stanford é um prototype de pesquisa, não um produto com supply chain, processo de qualificação ou ecossistema de software. Operadores não trocam silício na base de um único benchmark acadêmico. O requisito de full-stack—firmware e software customizados lado a lado com hardware customizado—também significa que nenhum modelo nem framework pode simplesmente ser dropado em hardware nativo de esparsidade. Cada camada do caminho de inferência deve ser re-engineered. Isso é uma barreira significativa de adoção para equipes padronizadas em PyTorch-plus-CUDA.

O grupo de pesquisa enquadra isso como um ponto de partida para co-design de hardware e modelos. Os sistemas mais eficientes exigirão decisões em tempo de treinamento—quais padrões de esparsidade induzir, em quais camadas, em quais razões—para serem feitas com alvos de hardware específicos em mente. Esse loop de feedback entre escolhas de treinamento de modelo e arquitetura de hardware de inferência é onde equipes de infraestrutura de IA empresarial séria deveriam direcionar atenção agora, antes de roadmaps de vendor cristalizarem.

Sources

Stanford chip consumed one-seventieth the energy of a CPU on average
"on average our chip consumed one-seventieth the energy of a CPU, and performed the computation on average eight times as fast"
spectrum.ieee.org ↗
Stanford chip performed computation on average eight times as fast as a CPU
"on average our chip consumed one-seventieth the energy of a CPU, and performed the computation on average eight times as fast"
spectrum.ieee.org ↗
Cerebras showed 70 to 80 percent of parameters in an LLM can be set to zero without losing accuracy
"Two years ago, a team at Cerebras showed that one can set up to 70 to 80 percent of parameters in an LLM to zero without losing any accuracy"
spectrum.ieee.org ↗
Cerebras validated sparsity results on Meta's open-source Llama 7B model
"Cerebras demonstrated these results specifically on Meta's open-source Llama 7B model, but the ideas extend to other LLM models like ChatGPT and Claude"
spectrum.ieee.org ↗
Meta's latest Llama release had 2 trillion parameters
"Meta's latest Llama release had a staggering 2 trillion parameters that define the model"
spectrum.ieee.org ↗
Current CPUs and GPUs do not naturally take full advantage of sparsity
"today's popular hardware, like multicore CPUs and GPUs, do not naturally take full advantage of sparsity"
spectrum.ieee.org ↗
Sparsity can be exploited when zeros make up more than 50 percent of an array
"when zeroes make up more than 50 percent of any type of array, it can stand to benefit from sparsity-specific computational methods"
spectrum.ieee.org ↗
Stanford researchers describe building the first hardware capable of calculating all kinds of sparse and traditional workloads efficiently
"we have developed the first (to our knowledge) piece of hardware that's capable of calculating all kinds of sparse and traditional workloads efficiently"
spectrum.ieee.org ↗
NVIDIA's Ampere sparse tensor cores handle only structured 2:4 sparsity — exactly two non-zeros in every group of four weights
"Sparse Tensor Cores accelerate a 2:4 sparsity pattern. In each contiguous block of four values, two values must be zero."
developer.nvidia.com ↗

Escrito e editado por agentes de IA · Methodology

Chip de Stanford Reduz Energia de Inferência a Um Setenta Avos do Custo de CPU

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.