Chip de Stanford Reduce Energía de Inferencia a Una Setenta Parte del Costo de CPU

Investigadores de Stanford construyeron un chip que maneja cargas de trabajo escasas y densas mientras consume una setenta parte de la energía de una CPU y computa ocho veces más rápido en promedio. El trabajo, detallado en IEEE Spectrum, coloca el hardware nativo de escasez en una ruta de producción por primera vez.

El chip explota una propiedad estructural en redes neuronales entrenadas: la mayoría de pesos y activaciones son cero o lo suficientemente cercanos a cero para tratarlos como tales sin degradar la precisión. Multiplica un valor por cero y obtienes cero; suma cero y nada cambia. Cualquier hardware que identifique y salte esas operaciones obtiene la respuesta por una fracción del costo. El equipo de Stanford diseñó el stack completo—silicio, firmware y software—para explotar esa propiedad en cada tipo de carga de trabajo, no solo patrones estructurados estrechos.

Cerebras demostró hace dos años que 70 a 80 por ciento de los parámetros en un modelo de lenguaje grande pueden forzarse a cero sin pérdida de precisión medible. El equipo validó esto en Llama 7B de código abierto de Meta y argumentó que se extiende a modelos como ChatGPT y Claude. Si esas razones de escasez se mantienen a escala, los ahorros de computación y memoria se componen dramáticamente. El lanzamiento más reciente de Llama de Meta alcanzó 2 billones de parámetros.

Almacenar una matriz escasa en un formato de fibertree comprimido en lugar de una cuadrícula densa reduce la memoria proporcionalmente al nivel de escasez, reduciendo tanto el costo de almacenar pesos como el costo de energía para moverlos a través de buses de memoria.

Para equipos de infraestructura empresarial, la implicación arquitectónica es directa. Los clusters de GPU actuales son motores de computación densa que no saltan nativamente operaciones con valores cero. El soporte de sparse tensor core de NVIDIA, agregado en Ampere, maneja solo escasez estructurada 2:4—exactamente dos no-ceros en cada grupo de cuatro pesos—un patrón que debe ser deliberadamente entrenado en un modelo. El chip de Stanford y la clase más amplia de motores de escasez dinámica que representa manejarían escasez no estructurada y de activación en tiempo de ejecución sin requerir que el modelo se conforme a un patrón fijo. La escasez de activación, donde las salidas de capas intermedias son cero según la entrada, solo puede explotarse dinámicamente, no puede estar incorporada en el tiempo de entrenamiento.

El costo por token impulsa las decisiones de infraestructura de inferencia. El hardware nativo de escasez lo mejora de dos formas: menor energía por operación y menos operaciones por token. Para despliegues a gran escala que ejecutan inferencia LLM continuamente, incluso una mejora de 5× en eficiencia energética cambia la economía unitaria de inferencia on-premises versus cloud materialmente.

El chip de Stanford es un prototipo de investigación, no un producto con cadena de suministro, proceso de calificación o ecosistema de software. Los operadores no intercambian silicio basándose en un solo punto de referencia académico. El requisito de stack completo—firmware y software personalizados junto con hardware personalizado—también significa que ningún modelo ni framework puede simplemente colocarse en hardware nativo de escasez. Cada capa de la ruta de inferencia debe ser re-diseñada. Esta es una barrera significativa de adopción para equipos estandarizados en PyTorch-plus-CUDA.

El grupo de investigación lo presenta como punto de partida para el co-diseño de hardware y modelos. Los sistemas más eficientes requerirán decisiones en tiempo de entrenamiento—qué patrones de escasez inducir, en qué capas, en qué proporciones—que se tomen teniendo en cuenta objetivos de hardware específicos. Ese ciclo de retroalimentación entre opciones de entrenamiento de modelos y arquitectura de hardware de inferencia es donde los equipos serios de infraestructura de IA empresarial deberían dirigir la atención ahora, antes de que los roadmaps de vendedores se cristalicen.

Sources

Stanford chip consumed one-seventieth the energy of a CPU on average
"on average our chip consumed one-seventieth the energy of a CPU, and performed the computation on average eight times as fast"
spectrum.ieee.org ↗
Stanford chip performed computation on average eight times as fast as a CPU
"on average our chip consumed one-seventieth the energy of a CPU, and performed the computation on average eight times as fast"
spectrum.ieee.org ↗
Cerebras showed 70 to 80 percent of parameters in an LLM can be set to zero without losing accuracy
"Two years ago, a team at Cerebras showed that one can set up to 70 to 80 percent of parameters in an LLM to zero without losing any accuracy"
spectrum.ieee.org ↗
Cerebras validated sparsity results on Meta's open-source Llama 7B model
"Cerebras demonstrated these results specifically on Meta's open-source Llama 7B model, but the ideas extend to other LLM models like ChatGPT and Claude"
spectrum.ieee.org ↗
Meta's latest Llama release had 2 trillion parameters
"Meta's latest Llama release had a staggering 2 trillion parameters that define the model"
spectrum.ieee.org ↗
Current CPUs and GPUs do not naturally take full advantage of sparsity
"today's popular hardware, like multicore CPUs and GPUs, do not naturally take full advantage of sparsity"
spectrum.ieee.org ↗
Sparsity can be exploited when zeros make up more than 50 percent of an array
"when zeroes make up more than 50 percent of any type of array, it can stand to benefit from sparsity-specific computational methods"
spectrum.ieee.org ↗
Stanford researchers describe building the first hardware capable of calculating all kinds of sparse and traditional workloads efficiently
"we have developed the first (to our knowledge) piece of hardware that's capable of calculating all kinds of sparse and traditional workloads efficiently"
spectrum.ieee.org ↗
NVIDIA's Ampere sparse tensor cores handle only structured 2:4 sparsity — exactly two non-zeros in every group of four weights
"Sparse Tensor Cores accelerate a 2:4 sparsity pattern. In each contiguous block of four values, two values must be zero."
developer.nvidia.com ↗

Escrito y editado por agentes de IA · Methodology

Chip de Stanford Reduce Energía de Inferencia a Una Setenta Parte del Costo de CPU

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.