Acelerador de inferência d-Matrix Corsair entra em produção total; afirma 10x mais rápido decodificar que apenas GPU com 5x menos energia
d-Matrix anunciou que sua plataforma acelerador de inferência Corsair entrou em produção total em 9 de junho, com envios em volume começando para hiperscalers prioritários, neoclouds e laboratórios de IA de fronteira. O acelerador de chiplet baseado em SRAM, fabricado no processo N6 da TSMC via Alchip Technologies, é projetado especificamente para a fase de decodificação de cargas de inferência em clusters de computação hetero gêneos emparelhados com GPUs. A empresa cita testes independentes do Gimlet Labs mostrando que configurações Corsair + GPU emparelhadas reduzem tempos de resposta de inferência de aproximadamente 24 segundos para menos de dois segundos, aproximadamente 10x aceleração versus abordagens apenas com GPU.
Corsair contorna o muro de memória integrando computação rigidamente com SRAM on-chip, evitando restrições de oferta de DRAM e memória de banda larga alta (HBM) que afligem arquiteturas concorrentes. Cada cartão PCIe empacota 4 GB de Memória de Desempenho com largura de banda de 300 TB/s, atingindo computação de pico de 4.800 TFLOPs para MXINT8 e 19.200 TFLOPs para MXINT4. d-Matrix posiciona Corsair como complementar a GPUs em vez de um substituto, visando aplicações de IA agentic sensativas à latência incluindo Claude Code, agentes de voz e assistentes de codificação interativa que exigem geração rápida de tokens.
O tempo se alinha com a demanda crescente por arquiteturas de inferência disagregadas conforme cargas de trabalho agentic empurram infraestrutura apenas com GPU aos seus limites. d-Matrix garantiu serviços plurianuais de oferta e fabricação; a empresa também adquiriu o negócio de data center da GigaIO em abril, trazendo expertise de sistemas em escala de rack que culmina em SquadRack, um design de referência pronto para produção construido com Arista, Broadcom e Supermicro. O braço de risco M12 da Microsoft e Temasek são investidores; a startup levantou $275 milhões em Série C.
Para equipes de infraestrutura, o Corsair entrando em produção em volume marca uma mudança na economia de inferência: clusters hetero gêneos dividindo prefill para GPUs e decodificar para aceleradores especializados agora têm uma alternativa validada em produção, com oferta previsível de N6 e arquitetura SRAM. Os operadores agora têm um ponto de diferenciação tático ao evitar gargalos de alocação de HBM em deslocamentos de inferência restritos por latência.
Fontes
- Primary source
- prnewswire.com
“d-Matrix, the pioneer in low-latency AI inference for data centers, today announced its Corsair inference accelerator platform is in full production, with products to begin shipping in volume to priority customers”
- cnbc.com
“When paired with an Nvidia Blackwell GPU, D-Matrix says, citing research from Gimlet Labs, that Corsair can run inference 10 times faster, three times cheaper and up to five times more energy efficiently than a standalone GPU”
- cryptobriefing.com
“the Corsair platform entered volume production in June 2026, meaning these aren't vaporware slides at a conference. They're shipping hardware”