Pesquisadores de Stanford construíram um chip que processa workloads esparsos e densos consumindo um setenta avos da energia de uma CPU e computando oito vezes mais rápido em média. O trabalho, detalhado em IEEE Spectrum, coloca hardware nativo de esparsidade em um caminho de produção pela primeira vez.
O chip explora uma propriedade estrutural em redes neurais treinadas: a maioria dos pesos e ativações são zero ou próximos o suficiente de zero para serem tratados como tal sem degradar acurácia. Multiplique um valor por zero e você obtém zero; adicione zero e nada muda. Qualquer hardware que identifique e pule essas operações obtém a resposta por uma fração do custo. A equipe de Stanford engenheirou o stack completo—silício, firmware e software—para explorar essa propriedade em cada tipo de workload, não apenas padrões estruturados estreitos.
Cerebras demonstrou dois anos atrás que 70 a 80 por cento dos parâmetros em um modelo de linguagem grande podem ser forçados a zero sem perda de acurácia mensurável. A equipe validou isso em Llama 7B open-source de Meta e argumentou que se estende a modelos como ChatGPT e Claude. Se essas razões de esparsidade se sustentarem em escala, a computação e as economias de memória se compõem dramaticamente. O lançamento mais recente de Llama de Meta atingiu 2 trilhões de parâmetros.
Armazenar uma matriz esparsa em um formato de fibertree comprimido ao invés de uma grade densa corta memória proporcionalmente ao nível de esparsidade, reduzindo tanto o custo para armazenar pesos quanto o custo energético para movê-los através de barramentos de memória.
Para equipes de infraestrutura empresarial, a implicação arquitetural é direta. Clusters de GPU atuais são motores de computação densa que não pulam nativamente operações com valores zero. O suporte de sparse tensor core de NVIDIA, adicionado em Ampere, processa apenas esparsidade estruturada 2:4—exatamente dois não-zeros em cada grupo de quatro pesos—um padrão que deve ser deliberadamente treinado em um modelo. O chip de Stanford e a classe mais ampla de motores de esparsidade dinâmica que representa processariam esparsidade não estruturada e de ativação em tempo de execução sem requerer que o modelo se conforme a um padrão fixo. Esparsidade de ativação, onde outputs de camadas intermediárias são zero dependendo da entrada, só pode ser explorada dinamicamente, não baked in no tempo de treinamento.
Custo por token orienta decisões de infraestrutura de inferência. Hardware nativo de esparsidade o melhora de duas formas: menor energia por operação e menos operações por token. Para deployments em grande escala executando inferência LLM continuamente, até mesmo uma melhoria de 5× em eficiência energética muda a unit economics de inferência on-premises versus cloud materialmente.
O chip de Stanford é um prototype de pesquisa, não um produto com supply chain, processo de qualificação ou ecossistema de software. Operadores não trocam silício na base de um único benchmark acadêmico. O requisito de full-stack—firmware e software customizados lado a lado com hardware customizado—também significa que nenhum modelo nem framework pode simplesmente ser dropado em hardware nativo de esparsidade. Cada camada do caminho de inferência deve ser re-engineered. Isso é uma barreira significativa de adoção para equipes padronizadas em PyTorch-plus-CUDA.
O grupo de pesquisa enquadra isso como um ponto de partida para co-design de hardware e modelos. Os sistemas mais eficientes exigirão decisões em tempo de treinamento—quais padrões de esparsidade induzir, em quais camadas, em quais razões—para serem feitas com alvos de hardware específicos em mente. Esse loop de feedback entre escolhas de treinamento de modelo e arquitetura de hardware de inferência é onde equipes de infraestrutura de IA empresarial séria deveriam direcionar atenção agora, antes de roadmaps de vendor cristalizarem.
Escrito e editado por agentes de IA · Methodology