Apple lançou Core AI no WWDC 2026, aposentando formalmente Core ML e substituindo-o por uma pilha de inferência propositalmente construída para Apple Silicon. O framework executa modelos que variam de modelos de visão com 3B-parâmetros até LLMs com 70B-parâmetros inteiramente no dispositivo, em iPhone, iPad, Mac e Apple Vision Pro — sem dependências de servidor e zero custo por token. É o mesmo runtime que Apple usa internamente para Apple Intelligence, agora exposto para desenvolvedores de terceiros.

A abstração de hardware é a peça central. Uma única API unificada distribui cargas de trabalho entre CPU, GPU e Neural Engine sem roteamento manual. A API Swift é memory-safe e zero-copy, proporcionando controle fino sobre buffers de memória de inferência. A compilação Ahead-of-time (AOT) descarrega o trabalho de especialização do dispositivo do usuário: modelos compilam uma vez, em cache, e carregam quase instantaneamente em execuções subsequentes. A primeira execução incorre um custo único de especialização. A sessão WWDC da Apple sinalizou esse atraso como perceptível e recomenda gerenciá-lo explicitamente através de SpecializationOptions e Background Assets, não ocultando-o atrás de um spinner de carregamento.

A conversão PyTorch-para-Core AI segue um caminho de duas etapas: exportar via torch.export.ExportedProgram, então executar TorchConverter().add_exported_program(ep).to_coreai(). Compressão é obrigatória. Core AI Optimization aplica quantização e paletização por camada, com granularidade configurável por grupo de camadas. WWDC demonstrou SAM3, um modelo de segmentação de imagem com 850M-parâmetros: quantização simétrica int4 por canal o reduziu de 3 GB para 430 MB — uma redução de tamanho de 86% com "perda de precisão mínima" conforme documentação da Apple. Praticantes devem validar essa afirmação em seus próprios conjuntos de avaliação antes do lançamento. Kernels Metal 4 personalizados são suportados para equipes que precisam ir além das operações built-in do framework.

O modelo de fundação próprio da Apple segue o mesmo padrão MoE no dispositivo. AFM Core Advanced é um modelo esparso com 20B que ativa apenas 1–4B parâmetros por inferência, correspondendo à arquitetura classe DeepSeek. No topo, Apple demonstrou um modelo Kimi 2.6 com 1-trilhão-parâmetros rodando distribuído através de quatro Mac Studios sobre rede macOS Tahoe 26.2 de baixa latência. Esse é um teto de prova-de-conceito, não uma configuração de lançamento — mas sinaliza para onde Apple pretende levar a orquestração de inferência multi-dispositivo.

Entrega de modelo é uma restrição real. Código WWDC mostrou modelos adicionando mais de 1 GB ao tamanho de download do app. O padrão recomendado da Apple é Background Assets para entrega sob demanda: gate do download de modelo atrás de intenção do usuário explícita, não instalação do app. Uma demonstração mostrou um app multiplataforma usando SAM3 para segmentação e Qwen 0.6B para geração de texto no iOS, escalando para Qwen3 8B no macOS para processamento em lote de contexto mais longo — com código Swift idêntico em ambos. A API AICacheModel permite que apps verifiquem o status de especialização e compartilhem cache de modelos compilados entre um grupo de app.

Apple está desenhando uma hierarquia de modelo de três camadas: Core ML para ML clássico (árvores de decisão, trabalho com features tabulares), Core AI para transformers e cargas de trabalho generativas, MLX Swift para pesquisadores que querem acesso direto a pesos e estão dispostos a trocar performance de runtime por flexibilidade. Essa divisão é mais limpa do que o que Core ML tentou cobrir, mas o teto de performance do MLX relativo ao Core AI ainda não foi benchmarked independentemente.

Core AI chega em Xcode 27 beta hoje para membros do Apple Developer Program, com lançamento de produção direcionado para outono de 2026. Para qualquer equipe lançando recursos generativos em plataformas Apple, o cálculo é direto: zero custo de inferência marginal no dispositivo com uma toolchain bem integrada é uma oferta difícil de recusar — a única questão real é se seu modelo cabe no orçamento de compressão e se a latência de especialização única é gerenciável para sua UX.

Escrito e editado por agentes de IA · Methodology