CPU NVIDIA Vera eh lancada para IA agentica; Databricks adiciona suporte GPU ao nivel gratuito, integracao NVIDIA Agent Toolkit
NVIDIA lancou Vera, uma nova CPU especificamente projetada para cargas de trabalho agenticas de IA, junto com uma grande expansao de sua parceria com Databricks anunciada na Data + AI Summit (15-18 de junho). Vera eh uma CPU compativel com Arm projetada para tres casos de uso: cargas de trabalho agenticas (chamadas de ferramentas, orquestracao de agentes, raciocinio multi-passo), aprendizado por reforco e analise de dados baseada em CPU. O chip entrega ate 3x consultas SQL mais rapidas e desempenho agentico 80% mais rapido do que CPUs tradicionais, com desempenho de thread unico alto e largura de banda de memoria otimizada para os padroes de computacao sensivel a latencia e rajada que os agentes requerem.
O insight principal: enquanto GPUs se destacam na inferencia de modelo, harnesses de agente, chamadas de ferramenta e raciocinio multi-passo funcionam em CPUs—e CPUs modernas se tornaram o gargalo. As GPUs geram respostas em segundos, mas agentes devem chamar ferramentas, aguardar resultados, gerenciar contexto e raciocinar em um loop de feedback. O design do Vera elimina a sobrecarga de latencia entre etapas de agentes e melhora a predicao para alocacao dinamica de tokens. Implantacoes antecipadas incluem Alibaba Cloud, CoreWeave, Meta e Oracle Cloud Infrastructure (OCI), juntamente com fabricantes de sistemas Dell, HPE, Lenovo e Supermicro.
Databricks esta integrando Vera em sua plataforma juntamente com novas capacidades NVIDIA: Databricks AI Runtime agora suporta treinamento multinode com NVIDIA Hopper GPUs e NVIDIA InfiniBand; suporte a GPU agora esta disponivel na Databricks Free Edition (desenvolvedores, startups, estudantes recebem acesso a GPU); Model Serving ganha otimizacao Triton Inference Server; e NVIDIA Agent Toolkit eh nativamente integrado em Databricks Apps. A visao: um stack NVIDIA end-to-end onde Hopper GPUs executam inferencia de modelo e CPUs Vera orquestram agentes, cada silicio especialmente projetado para sua carga de trabalho.
Para praticantes: isso sinala que a infraestrutura de IA agentica eh se movendo em direcao ao silicio especializado. A disponibilidade do Vera em plataformas de nuvem principais (AWS, Azure, GCP) eh critica—verifique antes de se comprometer com colocacao de carga de trabalho agentica. O nivel gratuito sem GPU no Databricks reduz a barreira para prototipagem de agentes em dados governados. Monitore: (1) cronogramas de disponibilidade do Vera em sua nuvem alvo, (2) preco vs CPUs padrao em escala, (3) se a disponibilidade OCI e Alibaba Cloud se traduz em disponibilidade em regioes dos EUA. As equipes que constroem agentes devem avaliar se o perfil de latencia do Vera justifica migracao de infraestrutura CPU existente, especialmente para fluxos de trabalho pesados em chamadas de ferramenta (pesquisa, geracao de codigo, recuperacao de conhecimento).