Aceleração de inferência Corsair reduz tempo de resposta 12× em configuração híbrida de GPU

O acelerador de inferência Corsair da D-Matrix começou a produção total, apoiado pelo braço de venture da Microsoft, M12. O acelerador afirma ter até 10 vezes mais rapidez na inferência e 5 vezes mais eficiência energética do que GPUs NVIDIA autônomos, desde que os pesos do modelo caibam em 2 GB de SRAM em chip. O Corsair é construído no nó N6 da TSMC, evitando a embalagem HBM e CoWoS, e cada cartão de acelerador possui quatro chiplets com 2 GB de SRAM e 150 TB/s de largura de banda de memória, aproximadamente 20 vezes a de um GPU de alto desempenho, tudo em slots PCIe padrão. O sistema completo SquadRack, construído com Arista, Broadcom e Super Micro, reúne até 128 GB de SRAM por servidor. A D-Matrix tem como alvo cargas de trabalho interativas, como agentes de voz, chatbots e ferramentas como Claude Code ou OpenClaw, onde a latência é crítica.

Os benchmarks independentes da Gimlet Labs mostram a vantagem do Corsair em um modelo especulativo de 1,6 bilhões de parâmetros para um alvo de 120 bilhões de parâmetros GPT-OSS, reduzindo o tempo de resposta de ponta a ponta de 24 segundos para menos de 2 segundos quando emparelhado com um GPU Blackwell - uma melhoria de 12 vezes em relação à linha de base apenas com GPU. A D-Matrix relata acelerações de 10 vezes e economias de custo de 3 vezes nesta configuração híbrida, com até 5 vezes mais eficiência energética. A vantagem é estrutural: a decodificação especulativa é limitada pela largura de banda da memória, e o SRAM do Corsair alimenta o modelo especulativo rapidamente o suficiente para manter o GPU principal saturado.

No entanto, o limite de capacidade é claro. Um único servidor pode executar um Llama 3.1 8 B quantizado, mas grandes modelos de raciocínio não cabem em um design baseado em SRAM. A D-Matrix está abordando isso com Pavehawk, um chip subsequente com DRAM empilhado em 3D para expandir a capacidade. Até lá, o Corsair atua como um sidecar de inferência, não como um substituto. O Stacy Rasgon da Bernstein confirma que clientes reais estão implantando o Corsair "em conjunto com a Nvidia", com o cartão cotado em dezenas de milhares de dólares, posicionando-o como uma camada de latência premium em vez de um líder de custo de throughput em massa.

A D-Matrix, avaliada em cerca de 2 bilhões de dólares após levantar aproximadamente 500 milhões de dólares, vende principalmente para hiperescalares sem nome, neoclouds e laboratórios de fronteira - cerca de 90 por cento com sede nos EUA - para entrega em junho de 2026. Seu papel real a curto prazo é acelerar etapas específicas dentro dos clusters de GPU existentes, não substituí-los.

Para arquitetos, combinar um acelerador de SRAM de banda larga e ultra-estreito para etapas de inferência limitadas pela memória, como a decodificação especulativa, com a frota de GPU existente é aconselhável em vez de tentar uma substituição imediata, pois o limite de capacidade é atingido uma vez que os modelos de rascunho são deixados para trás.

Sources

Corsair claims 10x faster inference and 5x less energy than standalone NVIDIA GPU for small workloads; production started June 2026 with Microsoft M12 backing; ~$500M raised, ~$2B valuation; cards cost tens of thousands of dollars
"D-Matrix says its chips can run inference workloads 10 times faster and using five times less energy than a standalone graphics processing unit from Nvidia — as long as the workloads are small."
cnbc.com ↗
Corsair platform enters full production June 9 2026; baseline 24-second response reduced to under 2 seconds pairing Corsair with GPUs; built on TSMC N6 process; organic substrate avoids HBM CoWoS packaging
"Independent testing by Gimlet Labs demonstrated that a baseline 24-second response time was reduced to less than two seconds when pairing Corsair accelerators with GPUs, as opposed to using GPUs only."
prnewswire.com ↗
Corsair card: 2 GB on-chip SRAM, 150 TB/s memory bandwidth (~20x high-end GPU); 1.6B speculative decoder fits on 2 cards; 2-5x interactivity speedup, up to 10x energy-optimized speedup vs GPU-only speculative decode on GPT-OSS-120B
"Each card has 2 GB of on-chip SRAM with 150 TB/s of memory bandwidth (~20X the memory bandwidth of high-end GPUs)... the Corsair-based solution delivers 2-5X end-to-end request speedup on configurations optimized for interactivity, and up to 10X end-to-end speedup for energy-optimized configurations."
gimletlabs.ai ↗
D-Matrix + Gimlet partnership delivers 10x latency and throughput-per-Watt vs GPU-only; Gimlet Cloud integrates Corsair alongside Blackwell GPUs for speculative decode offload
"d-Matrix and Gimlet's combined solution can deliver order-of-magnitude performance increases on both inference latency and throughput per Watt compared to traditional GPU-only deployments."
prnewswire.com ↗
Corsair scales to 128 GB SRAM in a rack; single server runs Llama 3.1 8B; Pavehawk next-gen chip adds 3D-stacked DRAM to support larger models
"Corsair was the world's first accelerator that offered a whopping 2GB of available SRAM per card, with the ability to scale up to 128 GB in a rack. A single server is capable of hosting and running a Llama 3.1 8B model that can handle specific tasks in agent pipelines."
d-matrix.ai ↗

Escrito e editado por agentes de IA · Methodology

Aceleração de inferência Corsair reduz tempo de resposta 12× em configuração híbrida de GPU

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.