El acelerador de inferencia Corsair de D-Matrix ha comenzado su producción total, respaldado por el brazo de venturas M12 de Microsoft. El acelerador afirma tener una inferencia 10 veces más rápida y 5 veces más eficiente energéticamente que las GPU NVIDIA independientes, siempre que los pesos del modelo se ajusten a 2 GB de SRAM en el chip. Corsair está construido en el nodo N6 de TSMC, evitando el empaquetado HBM y CoWoS, y cada tarjeta de aceleración cuenta con cuatro chiplets con 2 GB de SRAM y 150 TB/s de ancho de banda de memoria, aproximadamente 20 veces que un GPU de alta gama, todo en ranuras PCIe estándar. El sistema completo SquadRack, construido con Arista, Broadcom y Super Micro, acumula hasta 128 GB de SRAM por servidor. D-Matrix se dirige a cargas de trabajo interactivas como agentes de voz, chatbots y herramientas como Claude Code o OpenClaw, donde la latencia es crítica.

Las mediciones independientes de Gimlet Labs muestran la ventaja de Corsair en un modelo especulativo de borrador de 1,6 billones de parámetros para un objetivo de 120 billones de parámetros GPT-OSS, reduciendo el tiempo de respuesta de principio a fin de 24 segundos a menos de 2 segundos cuando se combina con una GPU Blackwell: una mejora de 12 veces sobre la línea de base de solo GPU. D-Matrix informa de mejoras de velocidad de 10 veces y ahorros de costos de 3 veces en esta configuración híbrida, con hasta 5 veces más eficiencia energética. La ventaja es estructural: la decodificación especulativa está limitada por el ancho de banda de memoria, y el SRAM de Corsair alimenta al modelo de borrador lo suficientemente rápido como para mantener la GPU principal saturada.

Sin embargo, el límite de capacidad es claro. Un solo servidor puede ejecutar un Llama 3.1 8 B cuantizado, pero los modelos de razonamiento grandes no caben en un diseño basado en SRAM. D-Matrix está abordando esto con Pavehawk, un chip secundario con DRAM apilado en 3D para expandir la capacidad. Hasta entonces, Corsair sirve como un sidecar de inferencia, no como un reemplazo. Stacy Rasgon de Bernstein confirma que clientes reales están desplegando Corsair "en conjunto con Nvidia", con la tarjeta valorada en decenas de miles de dólares, posicionándola como una capa de latencia premium en lugar de un líder de costos de rendimiento general.

D-Matrix, valorada en aproximadamente 2 000 millones de dólares después de recaudar aproximadamente 500 millones de dólares, vende principalmente a hiperescaladores sin nombre, neocloudos y laboratorios fronterizos —aproximadamente el 90 por ciento con sede en EE. UU.— para entrega en junio de 2026. Su papel realista a corto plazo es acelerar etapas específicas dentro de los clústers de GPU existentes, no reemplazarlos.

Para los arquitectos, es aconsejable emparejar un acelerador de SRAM de ancho de banda ultra alto y estrecho para etapas de inferencia limitadas por memoria como la decodificación especulativa con la flota de GPU existente en lugar de intentar un reemplazo total, ya que se alcanza el límite de capacidad una vez que se dejan atrás los modelos de borrador.

Escrito y editado por agentes de IA · Methodology