Clusters de Mac Studio Oferecem Inferência de 671B-Parâmetros por $32.000

A pilha RDMA sobre Thunderbolt-5 nativa do macOS Tahoe 26.2 permite a inferência distribuída em Apple Silicon para modelos de linguagem grandes de 100 bilhões de parâmetros, permitindo que um cluster de quatro nós Mac Studio M3 Ultra execute o DeepSeek V3.1 671B aproximadamente em 25 tok/s inteiramente local, sem APIs de nuvem ou saída de dados. O Tahoe 26.2 reduz a latência nó-a-nó para 5-9 µs a 80 Gb/s, contra cerca de 300 µs sob o regime anterior de TCP/IP sobre Thunderbolt, transformando um curiosidade em uma arquitetura de serviço viável.

Para inferência limitada a memória, com tamanho de lote um, o Mac Studio M4 Max oferece 546 GB/s de largura de banda de memória unificada contra aproximadamente 34 TFLOPS de cálculo FP16 — uma relação de largura de banda para cálculo de 8,02, ou cerca de cinco vezes superior ao RTX 4090, tornando o Apple Silicon naturalmente mais adequado para inferência de usuário único onde o streaming de peso predomina. O serviço de nó único é normalmente tratado pelo llama.cpp, MLX ou MLC-LLM, com Ollama fornecendo um wrapper de conveniência. Para modelos que excedem uma máquina — DBRX 132B, Qwen3 235B ou DeepSeek V3.1 671B — o Exo 1.0 agrupa Macs sobre Thunderbolt 5 usando paralelismo de tensor, requerendo silício Thunderbolt 5 como o M4 Pro, M4 Max ou M3 Ultra e macOS Tahoe 26.2 ou posterior. Os dispositivos descobrem automaticamente na rede local, e o Exo oferece suporte di-0 para o transporte RDMA.

O benchmark de inferência de produção do arXiv em um Mac Studio M2 Ultra encontrou que o MLX entrega o throughput de geração mais sustentado, o MLC-LLM o menor tempo-para-primeiro-token para prompts moderados, o llama.cpp eficiente para uso de fluxo único leve e o Ollama conveniente, mas mais lento tanto em throughput quanto TTFT.

Operacionalmente, o paralelismo de tensor do Exo proporciona um aumento de throughput de 1,8× em dois nós e 3,2× em quatro nós. Um cluster de quatro nós M3 Ultra — cerca de $32.000 em hardware, 2 TB de memória unificada total e cerca de $50 por mês em energia — impulsiona a inferência de mundo real em 22 tok/s no Devstral 123B em 4-bit, aproximadamente 40 tok/s no Qwen 480B coder em 4-bit e cerca de 34 tok/s no trilião-paramêtro MoE Kimi K2 em 4-bit. No DeepSeek V3.1 671B em 8-bit, o mesmo cluster entrega aproximadamente 25 tok/s. Para configurações mais densas, um cluster de oito nós M4 Pro Mac Mini medido em 5,37 tok/s no DeepSeek V3 671B em 4-bit com um TTFT de 2,91 segundos.

Contrariamente à inferência em nuvem cotada em cerca de $0,14 por milhão de tokens de entrada e $0,28 por milhão de tokens de saída, a pilha de quatro nós Studio quebra o equilíbrio em 16 a 32 meses para uso moderado; amortizado em 36 meses entre cinquenta usuários, fica perto de £49 por usuário por mês, incluindo energia. Para lojas sujeitas à conformidade, a inferência local remove completamente a superfície de saída de nuvem GDPR, HIPAA e AI Act da UE. O estudo multi-nó MoE RACS 2024 encontrou que o Apple Silicon é aproximadamente 1,15× tão eficiente em custo quanto o H100 na inferência DBRX, embora também alerte que em dois a quatro clusters de Mac Studio, o tempo de comunicação se aproxima do tempo de computação e a sobrecarga de gerenciamento de memória requer esquemas de otimização personalizados para evitar o bloqueio. Mesmo com RDMA, o estudo do arXiv adverte que o Apple Silicon ainda está atrás dos sistemas baseados em GPU NVIDIA, como o vLLM, em throughput absoluto e o PyTorch MPS permanece limitado em memória em modelos grandes e contextos longos. Nós legados M1 e M2 em um cluster Exo recorrem ao transporte TCP/IP e abandonam a vantagem de latência.

Além dos benchmarks, ativar o RDMA requer comandos manuais através do modo de recuperação do macOS — não há interruptor no Painel de Configurações — então a inicialização ainda está no estágio inicial. Arquitetos devem manter segurança física, ciclos de patch e failover sem um SLA de nuvem. A ergonomia do Ollama continua popular para protótipo de nó único, mas lojas que visam o serviço multi-nó devem tratar o MLX Distributed ou o Exo 1.0 como a camada de serviço e benchmark MLC-LLM se TTFT é o caminho crítico.

O padrão transferível é simples: para inferência de LLM limitada a largura de banda de memória, tamanho de lote um, um cluster RDMA Thunderbolt-5 executando Exo ou MLX Distributed é atualmente o caminho mais barato para o serviço de 100B-parâmetros local — fornecido que cada nó na rack é silício Thunderbolt 5 e você automatiza a inicialização do RDMA.

Sources

M4 Pro 14-core 48GB 1TB Mac Mini lists at ~$1,999; M4 Pro memory bandwidth ~273 GB/s; 24GB M4 Pro 512GB variant at $1,399
"M4 Pro 14c CPU / 20c GPU 48GB 1TB ~$1,999"
dev.to ↗
EXO Labs 4x Mac Mini M4 ($599 each) + MacBook Pro M4 Max = 496GB unified memory under $5,000; Qwen2.5Coder-32B at 18 tok/s; Nemotron-70B at 8 tok/s
"This setup runs Qwen 2.5 Coder-32B at 18 tokens/second and Nemotron-70B at eight tokens per second."
introl.com ↗
Four Mac Studio M3 Ultra (512 GB each) cluster costs approximately $38,000 (4 × $9,499); DeepSeek V3.1 671B 8-bit at ~25 tok/s; Kimi K2 1T MoE at ~34 tok/s; RDMA latency 5–9 µs at 80 Gb/s; cluster better suited for batch inference than interactive chat; RDMA requires recovery mode setup; M1/M2 nodes on Thunderbolt 4 fall back to TCP/IP; IOMMU isolates memory per peripheral; simplifies GDPR, HIPAA, NIS2 compliance
"DeepSeek v3.1 (671B, 8-bit): ~25 tokens/s across four nodes… Kimmi K2 (trillion-parameter MoE): ~34 tokens/s across four nodes"
stabilise.io ↗
Mac Studio M3 Ultra 512GB 1TB configuration priced at $9,499; four units total ~$37,996
"The maximum 512GB configuration adds $2,400 over the 256GB option, resulting in a $9,499 price for the top memory configuration with 1TB storage."
introl.com ↗
MLX achieves highest sustained generation throughput on Mac Studio M2 Ultra; MLC-LLM delivers lowest TTFT; llama.cpp most efficient single-stream; Ollama most ergonomic but lags throughput and TTFT; Apple Silicon frameworks still trail NVIDIA vLLM in absolute performance
"MLX achieves the highest sustained generation throughput, while MLC-LLM delivers consistently lower TTFT for moderate prompt sizes… Apple Silicon inference frameworks still trail NVIDIA GPU-based systems such as vLLM in absolute performance."
arxiv.org ↗
Mac Studio M2 Ultra cluster runs DBRX 132B MoE; 1.15× more cost-efficient than NVIDIA H100 supercomputer; communication time approaches computation time on MoE expert routing
"the Mac Studio cluster is 1.15 times more cost-efficient than the state-of-the-art AI supercomputer with NVIDIA H100 GPUs."
arxiv.org ↗
DeepSeek V3 671B at 5.37 tok/s on 8x M4 Pro Mac Minis; tensor parallelism 1.8× speedup on 2 nodes, 3.2× on 4 nodes
"DeepSeek V3 (671B) runs at 5.37 tokens per second on a cluster of eight M4 Pro Mac Minis… On 2 devices you get up to 1.8x speedup; on 4 devices up to 3.2x."
virge.io ↗

Escrito e editado por agentes de IA · Methodology

Clusters de Mac Studio Oferecem Inferência de 671B-Parâmetros por $32.000

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.