CPU NVIDIA Vera se lanza para IA agentica; Databricks agrega soporte GPU al nivel gratuito, integracion NVIDIA Agent Toolkit
NVIDIA lanzo Vera, una nueva CPU especificamente diseada para cargas de trabajo agenticas de IA, junto con una importante expansion de su asociacion con Databricks anunciada en la Data + AI Summit (15-18 de junio). Vera es una CPU compatible con Arm diseada para tres casos de uso: cargas de trabajo agenticas (llamadas de herramientas, orquestacion de agentes, razonamiento multi-paso), aprendizaje por refuerzo y analisis de datos basado en CPU. El chip ofrece hasta 3x consultas SQL mas rapidas y rendimiento agentico 80% mas rapido que las CPUs tradicionales, con un alto rendimiento de un solo subproceso y ancho de banda de memoria optimizado para los patrones de computacion sensibles a la latencia y rafagas que requieren los agentes.
La perspectiva principal: aunque las GPUs se destacan en la inferencia de modelos, los arneses de agentes, las llamadas de herramientas y el razonamiento multi-paso se ejecutan en CPUs—y las CPUs modernas se han convertido en el cuello de botella. Las GPUs generan respuestas en segundos, pero los agentes deben llamar herramientas, esperar resultados, gestionar contexto y razonar en un bucle de retroalimentacion. El diseno de Vera elimina la sobrecarga de latencia entre pasos de agentes y mejora la prediccion para asignacion dinamica de tokens. Las implementaciones iniciales incluyen Alibaba Cloud, CoreWeave, Meta y Oracle Cloud Infrastructure (OCI), junto con fabricantes de sistemas Dell, HPE, Lenovo y Supermicro.
Databricks esta integrando Vera en su plataforma junto con nuevas capacidades NVIDIA: Databricks AI Runtime ahora admite entrenamiento multinodo con NVIDIA Hopper GPUs e NVIDIA InfiniBand; el soporte de GPU ahora esta disponible en la edicion gratuita de Databricks (desarrolladores, startups, estudiantes obtienen acceso a GPU); Model Serving gana optimizacion del Servidor de Inferencia Triton; y NVIDIA Agent Toolkit se integra nativamente en Databricks Apps. La vision: un stack NVIDIA de extremo a extremo donde Hopper GPUs ejecutan inferencia de modelo y CPUs Vera orquestan agentes, cada silicio diseado especificamente para su carga de trabajo.
Para profesionales: esto senala que la infraestructura de IA agentica se esta moviendo hacia silicio especializado. La disponibilidad de Vera en plataformas en la nube principales (AWS, Azure, GCP) es critica—verifique antes de comprometerse con colocacion de carga de trabajo agentica. El nivel gratuito sin GPU en Databricks reduce la barrera para prototipado de agentes en datos gobernados. Observe: (1) cronogramas de disponibilidad de Vera en su nube objetivo, (2) precio vs CPUs estandar a escala, (3) si la disponibilidad de OCI y Alibaba Cloud se traduce en disponibilidad en regiones estadounidenses. Los equipos que construyen agentes deben evaluar si el perfil de latencia de Vera justifica la migracion de infraestructura CPU existente, especialmente para flujos de trabajo intensivos en llamadas de herramientas (investigacion, generacion de codigo, recuperacion de conocimiento).