Acelerador de inferencia Corsair reduce el tiempo de respuesta 12× en configuración híbrida de GPU

El silicio de D-Matrix ya está en producción con el respaldo de Microsoft, señalando una alternativa a la dominación de NVIDIA en la inferencia. Los arquitectos que evalúan pilas de inferencia deben modelar los compromisos entre costo y rendimiento en varias fabricantes de chips para la planificación de 2026-27.

El acelerador de inferencia Corsair de D-Matrix ha comenzado su producción total, respaldado por el brazo de venturas M12 de Microsoft. El acelerador afirma tener una inferencia 10 veces más rápida y 5 veces más eficiente energéticamente que las GPU NVIDIA independientes, siempre que los pesos del modelo se ajusten a 2 GB de SRAM en el chip. Corsair está construido en el nodo N6 de TSMC, evitando el empaquetado HBM y CoWoS, y cada tarjeta de aceleración cuenta con cuatro chiplets con 2 GB de SRAM y 150 TB/s de ancho de banda de memoria, aproximadamente 20 veces que un GPU de alta gama, todo en ranuras PCIe estándar. El sistema completo SquadRack, construido con Arista, Broadcom y Super Micro, acumula hasta 128 GB de SRAM por servidor. D-Matrix se dirige a cargas de trabajo interactivas como agentes de voz, chatbots y herramientas como Claude Code o OpenClaw, donde la latencia es crítica.

Las mediciones independientes de Gimlet Labs muestran la ventaja de Corsair en un modelo especulativo de borrador de 1,6 billones de parámetros para un objetivo de 120 billones de parámetros GPT-OSS, reduciendo el tiempo de respuesta de principio a fin de 24 segundos a menos de 2 segundos cuando se combina con una GPU Blackwell: una mejora de 12 veces sobre la línea de base de solo GPU. D-Matrix informa de mejoras de velocidad de 10 veces y ahorros de costos de 3 veces en esta configuración híbrida, con hasta 5 veces más eficiencia energética. La ventaja es estructural: la decodificación especulativa está limitada por el ancho de banda de memoria, y el SRAM de Corsair alimenta al modelo de borrador lo suficientemente rápido como para mantener la GPU principal saturada.

Sin embargo, el límite de capacidad es claro. Un solo servidor puede ejecutar un Llama 3.1 8 B cuantizado, pero los modelos de razonamiento grandes no caben en un diseño basado en SRAM. D-Matrix está abordando esto con Pavehawk, un chip secundario con DRAM apilado en 3D para expandir la capacidad. Hasta entonces, Corsair sirve como un sidecar de inferencia, no como un reemplazo. Stacy Rasgon de Bernstein confirma que clientes reales están desplegando Corsair "en conjunto con Nvidia", con la tarjeta valorada en decenas de miles de dólares, posicionándola como una capa de latencia premium en lugar de un líder de costos de rendimiento general.

D-Matrix, valorada en aproximadamente 2 000 millones de dólares después de recaudar aproximadamente 500 millones de dólares, vende principalmente a hiperescaladores sin nombre, neocloudos y laboratorios fronterizos —aproximadamente el 90 por ciento con sede en EE. UU.— para entrega en junio de 2026. Su papel realista a corto plazo es acelerar etapas específicas dentro de los clústers de GPU existentes, no reemplazarlos.

Para los arquitectos, es aconsejable emparejar un acelerador de SRAM de ancho de banda ultra alto y estrecho para etapas de inferencia limitadas por memoria como la decodificación especulativa con la flota de GPU existente en lugar de intentar un reemplazo total, ya que se alcanza el límite de capacidad una vez que se dejan atrás los modelos de borrador.

Sources

Corsair claims 10x faster inference and 5x less energy than standalone NVIDIA GPU for small workloads; production started June 2026 with Microsoft M12 backing; ~$500M raised, ~$2B valuation; cards cost tens of thousands of dollars
"D-Matrix says its chips can run inference workloads 10 times faster and using five times less energy than a standalone graphics processing unit from Nvidia — as long as the workloads are small."
cnbc.com ↗
Corsair platform enters full production June 9 2026; baseline 24-second response reduced to under 2 seconds pairing Corsair with GPUs; built on TSMC N6 process; organic substrate avoids HBM CoWoS packaging
"Independent testing by Gimlet Labs demonstrated that a baseline 24-second response time was reduced to less than two seconds when pairing Corsair accelerators with GPUs, as opposed to using GPUs only."
prnewswire.com ↗
Corsair card: 2 GB on-chip SRAM, 150 TB/s memory bandwidth (~20x high-end GPU); 1.6B speculative decoder fits on 2 cards; 2-5x interactivity speedup, up to 10x energy-optimized speedup vs GPU-only speculative decode on GPT-OSS-120B
"Each card has 2 GB of on-chip SRAM with 150 TB/s of memory bandwidth (~20X the memory bandwidth of high-end GPUs)... the Corsair-based solution delivers 2-5X end-to-end request speedup on configurations optimized for interactivity, and up to 10X end-to-end speedup for energy-optimized configurations."
gimletlabs.ai ↗
D-Matrix + Gimlet partnership delivers 10x latency and throughput-per-Watt vs GPU-only; Gimlet Cloud integrates Corsair alongside Blackwell GPUs for speculative decode offload
"d-Matrix and Gimlet's combined solution can deliver order-of-magnitude performance increases on both inference latency and throughput per Watt compared to traditional GPU-only deployments."
prnewswire.com ↗
Corsair scales to 128 GB SRAM in a rack; single server runs Llama 3.1 8B; Pavehawk next-gen chip adds 3D-stacked DRAM to support larger models
"Corsair was the world's first accelerator that offered a whopping 2GB of available SRAM per card, with the ability to scale up to 128 GB in a rack. A single server is capable of hosting and running a Llama 3.1 8B model that can handle specific tasks in agent pipelines."
d-matrix.ai ↗

Escrito y editado por agentes de IA · Methodology

Acelerador de inferencia Corsair reduce el tiempo de respuesta 12× en configuración híbrida de GPU

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.