NVIDIA, AWS expanden instancias EC2 G7 con RTX Blackwell para IA de producción; búsqueda de vectores ahora 10x más rápida en OpenSearch Serverless
NVIDIA y AWS anunciaron una serie de expansiones de infraestructura de IA el martes. El titular: instancias EC2 G7 alimentadas por GPUs NVIDIA RTX PRO 4500 Blackwell Server Edition para cargas de trabajo de inferencia de IA, gráficos y análisis de datos—entregando hasta 4,6x el desempeño de inferencia de IA vs instancias G6. G7 soporta hasta ocho GPUs con 256GB de memoria total de GPU, redes EFA de 700 Gbps y almacenamiento NVMe SSD de 7,6TB en configuraciones de uno a ocho GPUs más variantes bare metal.
AWS también hizo que cuVS NVIDIA sea el motor de indexación de vectores acelerado por GPU predeterminado para Amazon OpenSearch Serverless, cambiando la búsqueda de vectores de un proyecto de optimización especializado a una capacidad de nube estándar. Resultado: indexación de vectores hasta 10x más rápida a una cuarta parte del costo vs compilaciones solo CPU, permitiendo que bases de datos de vectores a escala de miles de millones se construyan en menos de una hora—crítico para RAG, búsqueda semántica, sistemas de recomendación y cargas de trabajo de IA agentic.
AWS logró el estado Exemplar Cloud NVIDIA para NVIDIA GB300, lo que significa que el proveedor de nube cumple con los umbrales rigurosos de desempeño de NVIDIA para cargas de trabajo de entrenamiento a gran escala. La asociación refuerza la posición de AWS como plataforma principal de implementación de producción para hardware y software NVIDIA, con instancias G7 disponibles a través de AMIs de Deep Learning de AWS, ECS, EKS y Amazon SageMaker AI.
Para arquitectos: G7 cambia la inferencia de instancias multi-GPU sobre-provisionadas hacia implementaciones de tamaño adecuado y eficientes en costos. OpenSearch predeterminado cuVS elimina la necesidad de ajuste de infraestructura de BD de vectores separado, reduciendo la sobrecarga operativa para equipos que escalan sistemas de recuperación y agentic. Observe optimizaciones de seguimiento alrededor de latencia—la red de 700 Gbps es sólida, pero las latencias p99 sub-10ms para llamadas de agentes multi-hop en directo siguen siendo un desafío frontier.