Apple Core AI Executa LLMs de 70B Inteiramente No Dispositivo

Apple lançou Core AI no WWDC 2026, aposentando formalmente Core ML e substituindo-o por uma pilha de inferência propositalmente construída para Apple Silicon. O framework executa modelos que variam de modelos de visão com 3B-parâmetros até LLMs com 70B-parâmetros inteiramente no dispositivo, em iPhone, iPad, Mac e Apple Vision Pro — sem dependências de servidor e zero custo por token. É o mesmo runtime que Apple usa internamente para Apple Intelligence, agora exposto para desenvolvedores de terceiros.

A abstração de hardware é a peça central. Uma única API unificada distribui cargas de trabalho entre CPU, GPU e Neural Engine sem roteamento manual. A API Swift é memory-safe e zero-copy, proporcionando controle fino sobre buffers de memória de inferência. A compilação Ahead-of-time (AOT) descarrega o trabalho de especialização do dispositivo do usuário: modelos compilam uma vez, em cache, e carregam quase instantaneamente em execuções subsequentes. A primeira execução incorre um custo único de especialização. A sessão WWDC da Apple sinalizou esse atraso como perceptível e recomenda gerenciá-lo explicitamente através de SpecializationOptions e Background Assets, não ocultando-o atrás de um spinner de carregamento.

A conversão PyTorch-para-Core AI segue um caminho de duas etapas: exportar via torch.export.ExportedProgram, então executar TorchConverter().add_exported_program(ep).to_coreai(). Compressão é obrigatória. Core AI Optimization aplica quantização e paletização por camada, com granularidade configurável por grupo de camadas. WWDC demonstrou SAM3, um modelo de segmentação de imagem com 850M-parâmetros: quantização simétrica int4 por canal o reduziu de 3 GB para 430 MB — uma redução de tamanho de 86% com "perda de precisão mínima" conforme documentação da Apple. Praticantes devem validar essa afirmação em seus próprios conjuntos de avaliação antes do lançamento. Kernels Metal 4 personalizados são suportados para equipes que precisam ir além das operações built-in do framework.

O modelo de fundação próprio da Apple segue o mesmo padrão MoE no dispositivo. AFM Core Advanced é um modelo esparso com 20B que ativa apenas 1–4B parâmetros por inferência, correspondendo à arquitetura classe DeepSeek. No topo, Apple demonstrou um modelo Kimi 2.6 com 1-trilhão-parâmetros rodando distribuído através de quatro Mac Studios sobre rede macOS Tahoe 26.2 de baixa latência. Esse é um teto de prova-de-conceito, não uma configuração de lançamento — mas sinaliza para onde Apple pretende levar a orquestração de inferência multi-dispositivo.

Entrega de modelo é uma restrição real. Código WWDC mostrou modelos adicionando mais de 1 GB ao tamanho de download do app. O padrão recomendado da Apple é Background Assets para entrega sob demanda: gate do download de modelo atrás de intenção do usuário explícita, não instalação do app. Uma demonstração mostrou um app multiplataforma usando SAM3 para segmentação e Qwen 0.6B para geração de texto no iOS, escalando para Qwen3 8B no macOS para processamento em lote de contexto mais longo — com código Swift idêntico em ambos. A API AICacheModel permite que apps verifiquem o status de especialização e compartilhem cache de modelos compilados entre um grupo de app.

Apple está desenhando uma hierarquia de modelo de três camadas: Core ML para ML clássico (árvores de decisão, trabalho com features tabulares), Core AI para transformers e cargas de trabalho generativas, MLX Swift para pesquisadores que querem acesso direto a pesos e estão dispostos a trocar performance de runtime por flexibilidade. Essa divisão é mais limpa do que o que Core ML tentou cobrir, mas o teto de performance do MLX relativo ao Core AI ainda não foi benchmarked independentemente.

Core AI chega em Xcode 27 beta hoje para membros do Apple Developer Program, com lançamento de produção direcionado para outono de 2026. Para qualquer equipe lançando recursos generativos em plataformas Apple, o cálculo é direto: zero custo de inferência marginal no dispositivo com uma toolchain bem integrada é uma oferta difícil de recusar — a única questão real é se seu modelo cabe no orçamento de compressão e se a latência de especialização única é gerenciável para sua UX.

Sources

Core AI is the official successor to Core ML, supports 3B to 70B parameter models on-device, zero server dependencies, zero per-token cost, Apple Silicon only
"Apple says the new Core AI framework provides a unified architecture for deploying models ranging from compact 3B-parameter vision models to large-scale LLMs, including reasoning models with up to 70B-parameter reasoning models"
infoq.com ↗
Core AI provides memory-safe Swift API, zero-copy data paths, AOT compilation for instant load times, custom Metal 4 kernels supported
"The Core AI framework provides a modern, memory-safe Swift API to load and run AI models entirely on device with zero server dependencies and zero token costs."
developer.apple.com ↗
SAM3 (850M parameters) compressed from 3GB to 430MB using int4 per-channel symmetric quantization; Core AI Debugger is a new standalone app for on-device model inspection
"How to compress models using coreai-opt's config-driven optimization library — demonstrated on SAM3 (850M parameters) using int4 per-channel symmetric quantization presets, reducing the model from 3GB to 430MB"
developer.apple.com ↗
Models add over 1GB to app download size; Background Assets recommended for on-demand delivery; Qwen 0.6B on iOS, Qwen3 8B on macOS; identical Swift code runs cross-platform
"When I checked, they're adding over 1 GB to my download size. That hits everyone who updates, even people who'll never touch this feature."
developer.apple.com ↗
WWDC demo showed 1-trillion-parameter Kimi 2.6 model running across four Mac Studios via macOS Tahoe 26.2 networking; Dynamic Profiles and Evaluations framework included
"9to5Mac highlighted WWDC demos that included a 1-trillion-parameter Kimi 2.6 model running locally across four Mac Studios using low-latency macOS Tahoe 26.2 networking."
letsdatascience.com ↗
Core AI ships with Xcode 27 beta now; production release fall 2026; AFM Core Advanced is 20B sparse MoE activating 1–4B parameters per inference
"The AFM Core Advanced model is particularly clever. It's a 20B sparse model that only activates 1-4B parameters per inference, meaning it runs efficiently on devices with limited memory while maintaining the quality of a much larger model."
aimadetools.com ↗
Core AI supports extensive customization from fine-grained inference management to custom GPU kernels; tightly integrated into Xcode with dedicated Core AI Instruments and visual Debugger
"Core AI also supports extensive customization from fine-grained inference management and model specialization to custom GPU kernels. And all of this is tightly integrated into a new developer toolchain, with ahead-of-time compilation, dedicated Core AI Instruments, and a powerful visual Debugger."
developer.apple.com ↗

Escrito e editado por agentes de IA · Methodology

Apple Core AI Executa LLMs de 70B Inteiramente No Dispositivo

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.