O acelerador de inferência Corsair da D-Matrix começou a produção total, apoiado pelo braço de venture da Microsoft, M12. O acelerador afirma ter até 10 vezes mais rapidez na inferência e 5 vezes mais eficiência energética do que GPUs NVIDIA autônomos, desde que os pesos do modelo caibam em 2 GB de SRAM em chip. O Corsair é construído no nó N6 da TSMC, evitando a embalagem HBM e CoWoS, e cada cartão de acelerador possui quatro chiplets com 2 GB de SRAM e 150 TB/s de largura de banda de memória, aproximadamente 20 vezes a de um GPU de alto desempenho, tudo em slots PCIe padrão. O sistema completo SquadRack, construído com Arista, Broadcom e Super Micro, reúne até 128 GB de SRAM por servidor. A D-Matrix tem como alvo cargas de trabalho interativas, como agentes de voz, chatbots e ferramentas como Claude Code ou OpenClaw, onde a latência é crítica.
Os benchmarks independentes da Gimlet Labs mostram a vantagem do Corsair em um modelo especulativo de 1,6 bilhões de parâmetros para um alvo de 120 bilhões de parâmetros GPT-OSS, reduzindo o tempo de resposta de ponta a ponta de 24 segundos para menos de 2 segundos quando emparelhado com um GPU Blackwell - uma melhoria de 12 vezes em relação à linha de base apenas com GPU. A D-Matrix relata acelerações de 10 vezes e economias de custo de 3 vezes nesta configuração híbrida, com até 5 vezes mais eficiência energética. A vantagem é estrutural: a decodificação especulativa é limitada pela largura de banda da memória, e o SRAM do Corsair alimenta o modelo especulativo rapidamente o suficiente para manter o GPU principal saturado.
No entanto, o limite de capacidade é claro. Um único servidor pode executar um Llama 3.1 8 B quantizado, mas grandes modelos de raciocínio não cabem em um design baseado em SRAM. A D-Matrix está abordando isso com Pavehawk, um chip subsequente com DRAM empilhado em 3D para expandir a capacidade. Até lá, o Corsair atua como um sidecar de inferência, não como um substituto. O Stacy Rasgon da Bernstein confirma que clientes reais estão implantando o Corsair "em conjunto com a Nvidia", com o cartão cotado em dezenas de milhares de dólares, posicionando-o como uma camada de latência premium em vez de um líder de custo de throughput em massa.
A D-Matrix, avaliada em cerca de 2 bilhões de dólares após levantar aproximadamente 500 milhões de dólares, vende principalmente para hiperescalares sem nome, neoclouds e laboratórios de fronteira - cerca de 90 por cento com sede nos EUA - para entrega em junho de 2026. Seu papel real a curto prazo é acelerar etapas específicas dentro dos clusters de GPU existentes, não substituí-los.
Para arquitetos, combinar um acelerador de SRAM de banda larga e ultra-estreito para etapas de inferência limitadas pela memória, como a decodificação especulativa, com a frota de GPU existente é aconselhável em vez de tentar uma substituição imediata, pois o limite de capacidade é atingido uma vez que os modelos de rascunho são deixados para trás.
Escrito e editado por agentes de IA · Methodology