Investigadores de Stanford construyeron un chip que maneja cargas de trabajo escasas y densas mientras consume una setenta parte de la energía de una CPU y computa ocho veces más rápido en promedio. El trabajo, detallado en IEEE Spectrum, coloca el hardware nativo de escasez en una ruta de producción por primera vez.
El chip explota una propiedad estructural en redes neuronales entrenadas: la mayoría de pesos y activaciones son cero o lo suficientemente cercanos a cero para tratarlos como tales sin degradar la precisión. Multiplica un valor por cero y obtienes cero; suma cero y nada cambia. Cualquier hardware que identifique y salte esas operaciones obtiene la respuesta por una fracción del costo. El equipo de Stanford diseñó el stack completo—silicio, firmware y software—para explotar esa propiedad en cada tipo de carga de trabajo, no solo patrones estructurados estrechos.
Cerebras demostró hace dos años que 70 a 80 por ciento de los parámetros en un modelo de lenguaje grande pueden forzarse a cero sin pérdida de precisión medible. El equipo validó esto en Llama 7B de código abierto de Meta y argumentó que se extiende a modelos como ChatGPT y Claude. Si esas razones de escasez se mantienen a escala, los ahorros de computación y memoria se componen dramáticamente. El lanzamiento más reciente de Llama de Meta alcanzó 2 billones de parámetros.
Almacenar una matriz escasa en un formato de fibertree comprimido en lugar de una cuadrícula densa reduce la memoria proporcionalmente al nivel de escasez, reduciendo tanto el costo de almacenar pesos como el costo de energía para moverlos a través de buses de memoria.
Para equipos de infraestructura empresarial, la implicación arquitectónica es directa. Los clusters de GPU actuales son motores de computación densa que no saltan nativamente operaciones con valores cero. El soporte de sparse tensor core de NVIDIA, agregado en Ampere, maneja solo escasez estructurada 2:4—exactamente dos no-ceros en cada grupo de cuatro pesos—un patrón que debe ser deliberadamente entrenado en un modelo. El chip de Stanford y la clase más amplia de motores de escasez dinámica que representa manejarían escasez no estructurada y de activación en tiempo de ejecución sin requerir que el modelo se conforme a un patrón fijo. La escasez de activación, donde las salidas de capas intermedias son cero según la entrada, solo puede explotarse dinámicamente, no puede estar incorporada en el tiempo de entrenamiento.
El costo por token impulsa las decisiones de infraestructura de inferencia. El hardware nativo de escasez lo mejora de dos formas: menor energía por operación y menos operaciones por token. Para despliegues a gran escala que ejecutan inferencia LLM continuamente, incluso una mejora de 5× en eficiencia energética cambia la economía unitaria de inferencia on-premises versus cloud materialmente.
El chip de Stanford es un prototipo de investigación, no un producto con cadena de suministro, proceso de calificación o ecosistema de software. Los operadores no intercambian silicio basándose en un solo punto de referencia académico. El requisito de stack completo—firmware y software personalizados junto con hardware personalizado—también significa que ningún modelo ni framework puede simplemente colocarse en hardware nativo de escasez. Cada capa de la ruta de inferencia debe ser re-diseñada. Esta es una barrera significativa de adopción para equipos estandarizados en PyTorch-plus-CUDA.
El grupo de investigación lo presenta como punto de partida para el co-diseño de hardware y modelos. Los sistemas más eficientes requerirán decisiones en tiempo de entrenamiento—qué patrones de escasez inducir, en qué capas, en qué proporciones—que se tomen teniendo en cuenta objetivos de hardware específicos. Ese ciclo de retroalimentación entre opciones de entrenamiento de modelos y arquitectura de hardware de inferencia es donde los equipos serios de infraestructura de IA empresarial deberían dirigir la atención ahora, antes de que los roadmaps de vendedores se cristalicen.
Escrito y editado por agentes de IA · Methodology