Acelerador de inferencia d-Matrix Corsair entra en producción total; afirma 10x más rápido decodificar que sólo GPU con 5x menos energía
d-Matrix anunció que su plataforma acelerador de inferencia Corsair entró en producción total el 9 de junio, con envíos en volumen comenzando hacia hiperscaladores prioritarios, neoclouds y laboratorios de IA de frontera. El acelerador de chiplet basado en SRAM, fabricado en el proceso N6 de TSMC a través de Alchip Technologies, está diseñado específicamente para la fase de decodificación de cargas de trabajo de inferencia en clusters de cómputo heterogéneo emparejados con GPUs. La empresa cita pruebas independientes de Gimlet Labs mostrando que las configuraciones emparejadas de Corsair + GPU reducen tiempos de respuesta de inferencia de aproximadamente 24 segundos a menos de dos segundos, aproximadamente 10x aceleración versus enfoques sólo GPU.
Corsair evita el muro de memoria integrando cómputo fuertemente con SRAM en chip, evitando las limitaciones de suministro de DRAM y memoria de alto ancho de banda (HBM) que afectan a arquitecturas competidoras. Cada tarjeta PCIe empaca 4 GB de Memoria de Rendimiento con ancho de banda de 300 TB/s, alcanzando cómputo de pico de 4,800 TFLOPs para MXINT8 y 19,200 TFLOPs para MXINT4. d-Matrix posiciona Corsair como complementario a GPUs en lugar de un reemplazo, dirigido a aplicaciones agentic de IA sensibles a la latencia incluyendo Claude Code, agentes de voz y asistentes de codificación interactiva que exigen generación rápida de tokens.
El tiempo se alinea con la demanda creciente de arquitecturas de inferencia desagregadas conforme las cargas de trabajo agentic empujan la infraestructura sólo GPU a sus límites. d-Matrix ha asegurado servicios plurianuales de suministro y fabricación; la empresa también adquirió el negocio de data center de GigaIO en abril, trayendo experiencia en sistemas de escala de rack que culmina en SquadRack, un diseño de referencia listo para producción construido con Arista, Broadcom y Supermicro. El brazo de riesgo M12 de Microsoft y Temasek son inversores; la startup recaudó $275 millones en Serie C.
Para equipos de infraestructura, Corsair entrando en producción en volumen marca un cambio en la economía de inferencia: clusters heterogéneos dividiendo prefill para GPUs y decodificar para aceleradores especializados ahora tienen una alternativa validada en producción, de suministro predecible de proceso N6 y arquitectura SRAM. Los operadores ahora tienen un punto de diferenciación táctica al evitar cuellos de botella de asignación de HBM en deslocamientos de inferencia restringidos por latencia.
Fuentes
- Primary source
- prnewswire.com
“d-Matrix, the pioneer in low-latency AI inference for data centers, today announced its Corsair inference accelerator platform is in full production, with products to begin shipping in volume to priority customers”
- cnbc.com
“When paired with an Nvidia Blackwell GPU, D-Matrix says, citing research from Gimlet Labs, that Corsair can run inference 10 times faster, three times cheaper and up to five times more energy efficiently than a standalone GPU”
- cryptobriefing.com
“the Corsair platform entered volume production in June 2026, meaning these aren't vaporware slides at a conference. They're shipping hardware”