NVIDIA, AWS expandem instâncias EC2 G7 com RTX Blackwell para IA de produção; busca de vetor agora 10x mais rápida em OpenSearch Serverless
NVIDIA e AWS anunciaram uma série de expansões de infraestrutura de IA na terça-feira. O destaque: instâncias EC2 G7 alimentadas por GPUs NVIDIA RTX PRO 4500 Blackwell Server Edition para cargas de trabalho de inferência de IA, gráficos e análise de dados—entregando até 4,6x desempenho de inferência de IA vs instâncias G6. G7 suporta até oito GPUs com 256GB de memória total de GPU, networking EFA de 700 Gbps e armazenamento NVMe SSD de 7,6TB em configurações de um a oito GPUs mais variantes bare metal.
A AWS também tornou cuVS NVIDIA o mecanismo de indexação de vetores acelerado por GPU padrão para Amazon OpenSearch Serverless, mudando busca de vetor de um projeto de otimização especializado para uma capacidade padrão de nuvem. Resultado: indexação de vetores até 10x mais rápida a um quarto do custo vs compilações somente CPU, permitindo que bancos de dados de vetores em escala de bilhões construam em menos de uma hora—crítico para RAG, busca semântica, sistemas de recomendação e cargas de trabalho de IA agentic.
A AWS alcançou status Exemplar Cloud NVIDIA para NVIDIA GB300, significando que o provedor de nuvem atende aos limites rígidos de desempenho da NVIDIA para cargas de trabalho de treinamento em larga escala. A parceria reforça a posição da AWS como plataforma principal de deployment de produção para hardware e software NVIDIA, com instâncias G7 disponíveis através de AMIs de Deep Learning AWS, ECS, EKS e Amazon SageMaker AI.
Para arquitetos: G7 muda inferência de instâncias multi-GPU sobre-provisionadas para deployments direcionados e eficientes em custo. OpenSearch padrão cuVS elimina a necessidade de ajuste de infraestrutura de banco de dados de vetores separado, reduzindo overhead operacional para equipes escalando recuperação e sistemas agentic. Observe otimizações de acompanhamento em torno de latência—networking de 700 Gbps é forte, mas latências p99 sub-10ms para chamadas de agente multi-hop ao vivo continuam a ser um desafio frontier.