A pilha RDMA sobre Thunderbolt-5 nativa do macOS Tahoe 26.2 permite a inferência distribuída em Apple Silicon para modelos de linguagem grandes de 100 bilhões de parâmetros, permitindo que um cluster de quatro nós Mac Studio M3 Ultra execute o DeepSeek V3.1 671B aproximadamente em 25 tok/s inteiramente local, sem APIs de nuvem ou saída de dados. O Tahoe 26.2 reduz a latência nó-a-nó para 5-9 µs a 80 Gb/s, contra cerca de 300 µs sob o regime anterior de TCP/IP sobre Thunderbolt, transformando um curiosidade em uma arquitetura de serviço viável.
Para inferência limitada a memória, com tamanho de lote um, o Mac Studio M4 Max oferece 546 GB/s de largura de banda de memória unificada contra aproximadamente 34 TFLOPS de cálculo FP16 — uma relação de largura de banda para cálculo de 8,02, ou cerca de cinco vezes superior ao RTX 4090, tornando o Apple Silicon naturalmente mais adequado para inferência de usuário único onde o streaming de peso predomina. O serviço de nó único é normalmente tratado pelo llama.cpp, MLX ou MLC-LLM, com Ollama fornecendo um wrapper de conveniência. Para modelos que excedem uma máquina — DBRX 132B, Qwen3 235B ou DeepSeek V3.1 671B — o Exo 1.0 agrupa Macs sobre Thunderbolt 5 usando paralelismo de tensor, requerendo silício Thunderbolt 5 como o M4 Pro, M4 Max ou M3 Ultra e macOS Tahoe 26.2 ou posterior. Os dispositivos descobrem automaticamente na rede local, e o Exo oferece suporte di-0 para o transporte RDMA.
O benchmark de inferência de produção do arXiv em um Mac Studio M2 Ultra encontrou que o MLX entrega o throughput de geração mais sustentado, o MLC-LLM o menor tempo-para-primeiro-token para prompts moderados, o llama.cpp eficiente para uso de fluxo único leve e o Ollama conveniente, mas mais lento tanto em throughput quanto TTFT.
Operacionalmente, o paralelismo de tensor do Exo proporciona um aumento de throughput de 1,8× em dois nós e 3,2× em quatro nós. Um cluster de quatro nós M3 Ultra — cerca de $32.000 em hardware, 2 TB de memória unificada total e cerca de $50 por mês em energia — impulsiona a inferência de mundo real em 22 tok/s no Devstral 123B em 4-bit, aproximadamente 40 tok/s no Qwen 480B coder em 4-bit e cerca de 34 tok/s no trilião-paramêtro MoE Kimi K2 em 4-bit. No DeepSeek V3.1 671B em 8-bit, o mesmo cluster entrega aproximadamente 25 tok/s. Para configurações mais densas, um cluster de oito nós M4 Pro Mac Mini medido em 5,37 tok/s no DeepSeek V3 671B em 4-bit com um TTFT de 2,91 segundos.
Contrariamente à inferência em nuvem cotada em cerca de $0,14 por milhão de tokens de entrada e $0,28 por milhão de tokens de saída, a pilha de quatro nós Studio quebra o equilíbrio em 16 a 32 meses para uso moderado; amortizado em 36 meses entre cinquenta usuários, fica perto de £49 por usuário por mês, incluindo energia. Para lojas sujeitas à conformidade, a inferência local remove completamente a superfície de saída de nuvem GDPR, HIPAA e AI Act da UE. O estudo multi-nó MoE RACS 2024 encontrou que o Apple Silicon é aproximadamente 1,15× tão eficiente em custo quanto o H100 na inferência DBRX, embora também alerte que em dois a quatro clusters de Mac Studio, o tempo de comunicação se aproxima do tempo de computação e a sobrecarga de gerenciamento de memória requer esquemas de otimização personalizados para evitar o bloqueio. Mesmo com RDMA, o estudo do arXiv adverte que o Apple Silicon ainda está atrás dos sistemas baseados em GPU NVIDIA, como o vLLM, em throughput absoluto e o PyTorch MPS permanece limitado em memória em modelos grandes e contextos longos. Nós legados M1 e M2 em um cluster Exo recorrem ao transporte TCP/IP e abandonam a vantagem de latência.
Além dos benchmarks, ativar o RDMA requer comandos manuais através do modo de recuperação do macOS — não há interruptor no Painel de Configurações — então a inicialização ainda está no estágio inicial. Arquitetos devem manter segurança física, ciclos de patch e failover sem um SLA de nuvem. A ergonomia do Ollama continua popular para protótipo de nó único, mas lojas que visam o serviço multi-nó devem tratar o MLX Distributed ou o Exo 1.0 como a camada de serviço e benchmark MLC-LLM se TTFT é o caminho crítico.
O padrão transferível é simples: para inferência de LLM limitada a largura de banda de memória, tamanho de lote um, um cluster RDMA Thunderbolt-5 executando Exo ou MLX Distributed é atualmente o caminho mais barato para o serviço de 100B-parâmetros local — fornecido que cada nó na rack é silício Thunderbolt 5 e você automatiza a inicialização do RDMA.
Escrito e editado por agentes de IA · Methodology