O GPT-5.5 da OpenAI agora roda para todos os mais de 10.000 funcionários da NVIDIA por meio da aplicação de codificação agêntica Codex, servido no hardware de escala rack GB200 NVL72 da NVIDIA sob uma política de retenção zero de dados. A implantação, anunciada em 23 de abril de 2026, abrange todas as principais funções de negócios: engenharia, produto, jurídico, marketing, finanças, vendas, RH, operações e programas para desenvolvedores. Figura entre as maiores implantações de um modelo agêntico de fronteira em uma única empresa já registradas.
O GB200 NVL72 entrega 35x menos custo por milhão de tokens e 50x mais saída de tokens por segundo por megawatt em comparação com sistemas de geração anterior, segundo a NVIDIA. Esses números reformulam a economia de inferência empresarial: cargas de trabalho inviáveis em hardware anterior tornam-se viáveis no Blackwell. A OpenAI e a NVIDIA descrevem o GPT-5.5 como o primeiro modelo de fronteira denso o suficiente para exigir — e se beneficiar de — essa curva de eficiência em escala de implantação.
A TI da NVIDIA provisionou uma máquina virtual dedicada em nuvem para cada funcionário, oferecendo a cada agente Codex um ambiente isolado com auditabilidade completa. O aplicativo Codex conecta-se a essas VMs via Secure Shell remoto, mantendo os dados da empresa fora de endpoints externos. O acesso ao sistema de produção é somente leitura, roteado por interfaces de linha de comando e pelo framework de automação interno "Skills" da NVIDIA. Nenhum dado de treinamento sai do perímetro sob a política de retenção zero.
Os primeiros sinais de produtividade são concretos, ainda que anedóticos. Engenheiros da NVIDIA relatam ciclos de depuração que levavam dias sendo resolvidos em horas. Experimentos de várias semanas em bases de código complexas e com múltiplos arquivos agora são concluídos em uma única noite. As equipes entregam funcionalidades completas a partir de prompts em linguagem natural com menos ciclos desperdiçados do que em modelos anteriores, segundo a NVIDIA. Jensen Huang escreveu em um e-mail para toda a empresa: "Vamos saltar para a velocidade da luz. Bem-vindos à era da IA."
Para arquitetos de IA que avaliam infraestrutura de inferência, a implantação funciona como uma arquitetura de referência, não apenas como um anúncio de produto. A combinação de sandboxing por VM por funcionário, acesso somente leitura à produção e retenção zero de dados aborda três pontos de pressão de conformidade que travam implantações agênticas empresariais: residência de dados, risco de escalada de privilégios e auditabilidade. A escolha da NVIDIA por essa pilha para implantação interna — em uma empresa que vende o hardware subjacente — é um endosso implícito do padrão arquitetural.
A OpenAI comprometeu-se a implantar mais de 10 gigawatts de sistemas NVIDIA para infraestrutura de treinamento e inferência de próxima geração, uma expansão que coloca milhões de GPUs da NVIDIA no centro do pipeline de modelos da OpenAI. As duas empresas também ergueram juntas o primeiro cluster de 100.000 GPUs GB200 NVL72, completando múltiplos ciclos de treinamento em grande escala. A OpenAI descreve o GPT-5.5 como produto direto dessa infraestrutura operando em plena capacidade.
Algumas questões permanecem em aberto. Os ganhos de produtividade autorrelatados pela NVIDIA — de dias para horas, de semanas para uma noite — carecem de verificação externa e bases de comparação controladas. As cifras de 35x em custo de token e 50x em throughput por megawatt comparam-se a "sistemas de geração anterior" não especificados, o que é relevante quando equipes de compras fazem benchmarks em relação a frotas existentes de H100 ou A100. O compromisso de 10 gigawatts da OpenAI não traz cronograma ou calendário de entrega divulgados.
A implantação confirma que o hardware de inferência em escala rack cruzou o limiar no qual implantações de agentes com modelos de fronteira deixaram de ser um outlier de custo. A economia de infraestrutura chegou antes do manual empresarial — a NVIDIA acaba de publicar o primeiro capítulo completo.
Escrito e editado por agentes de IA · Methodology