GPT-5.5 Codex Chega a Todos os Funcionários da NVIDIA com Custo de Token 35x Menor

O GPT-5.5 da OpenAI agora roda para todos os mais de 10.000 funcionários da NVIDIA por meio da aplicação de codificação agêntica Codex, servido no hardware de escala rack GB200 NVL72 da NVIDIA sob uma política de retenção zero de dados. A implantação, anunciada em 23 de abril de 2026, abrange todas as principais funções de negócios: engenharia, produto, jurídico, marketing, finanças, vendas, RH, operações e programas para desenvolvedores. Figura entre as maiores implantações de um modelo agêntico de fronteira em uma única empresa já registradas.

O GB200 NVL72 entrega 35x menos custo por milhão de tokens e 50x mais saída de tokens por segundo por megawatt em comparação com sistemas de geração anterior, segundo a NVIDIA. Esses números reformulam a economia de inferência empresarial: cargas de trabalho inviáveis em hardware anterior tornam-se viáveis no Blackwell. A OpenAI e a NVIDIA descrevem o GPT-5.5 como o primeiro modelo de fronteira denso o suficiente para exigir — e se beneficiar de — essa curva de eficiência em escala de implantação.

A TI da NVIDIA provisionou uma máquina virtual dedicada em nuvem para cada funcionário, oferecendo a cada agente Codex um ambiente isolado com auditabilidade completa. O aplicativo Codex conecta-se a essas VMs via Secure Shell remoto, mantendo os dados da empresa fora de endpoints externos. O acesso ao sistema de produção é somente leitura, roteado por interfaces de linha de comando e pelo framework de automação interno "Skills" da NVIDIA. Nenhum dado de treinamento sai do perímetro sob a política de retenção zero.

Os primeiros sinais de produtividade são concretos, ainda que anedóticos. Engenheiros da NVIDIA relatam ciclos de depuração que levavam dias sendo resolvidos em horas. Experimentos de várias semanas em bases de código complexas e com múltiplos arquivos agora são concluídos em uma única noite. As equipes entregam funcionalidades completas a partir de prompts em linguagem natural com menos ciclos desperdiçados do que em modelos anteriores, segundo a NVIDIA. Jensen Huang escreveu em um e-mail para toda a empresa: "Vamos saltar para a velocidade da luz. Bem-vindos à era da IA."

Para arquitetos de IA que avaliam infraestrutura de inferência, a implantação funciona como uma arquitetura de referência, não apenas como um anúncio de produto. A combinação de sandboxing por VM por funcionário, acesso somente leitura à produção e retenção zero de dados aborda três pontos de pressão de conformidade que travam implantações agênticas empresariais: residência de dados, risco de escalada de privilégios e auditabilidade. A escolha da NVIDIA por essa pilha para implantação interna — em uma empresa que vende o hardware subjacente — é um endosso implícito do padrão arquitetural.

A OpenAI comprometeu-se a implantar mais de 10 gigawatts de sistemas NVIDIA para infraestrutura de treinamento e inferência de próxima geração, uma expansão que coloca milhões de GPUs da NVIDIA no centro do pipeline de modelos da OpenAI. As duas empresas também ergueram juntas o primeiro cluster de 100.000 GPUs GB200 NVL72, completando múltiplos ciclos de treinamento em grande escala. A OpenAI descreve o GPT-5.5 como produto direto dessa infraestrutura operando em plena capacidade.

Algumas questões permanecem em aberto. Os ganhos de produtividade autorrelatados pela NVIDIA — de dias para horas, de semanas para uma noite — carecem de verificação externa e bases de comparação controladas. As cifras de 35x em custo de token e 50x em throughput por megawatt comparam-se a "sistemas de geração anterior" não especificados, o que é relevante quando equipes de compras fazem benchmarks em relação a frotas existentes de H100 ou A100. O compromisso de 10 gigawatts da OpenAI não traz cronograma ou calendário de entrega divulgados.

A implantação confirma que o hardware de inferência em escala rack cruzou o limiar no qual implantações de agentes com modelos de fronteira deixaram de ser um outlier de custo. A economia de infraestrutura chegou antes do manual empresarial — a NVIDIA acaba de publicar o primeiro capítulo completo.

Sources

GPT-5.5 powers Codex deployed to 10,000+ NVIDIANs across engineering, product, legal, marketing, finance, sales, HR, operations, and developer programs
"Over 10,000 NVIDIANs — across engineering, product, legal, marketing, finance, sales, HR, operations and developer programs — are already using GPT-5.5-powered Codex"
blogs.nvidia.com ↗
GB200 NVL72 delivers 35x lower cost per million tokens vs prior-generation systems
"Served on GB200 NVL72, which is capable of delivering 35x lower cost per million tokens and 50x higher token output per second per megawatt compared with prior-generation systems"
blogs.nvidia.com ↗
GB200 NVL72 delivers 50x higher token output per second per megawatt vs prior-generation systems
"50x higher token output per second per megawatt compared with prior-generation systems — economics that make frontier-model inference viable at enterprise scale"
blogs.nvidia.com ↗
Debugging cycles that once stretched across days are closing in hours; multi-week experimentation is turning into overnight progress
"Debugging cycles that once stretched across days are closing in hours. Experimentation that previously required weeks is turning into overnight progress in complex, multi-file codebases."
blogs.nvidia.com ↗
A zero-data retention policy governs NVIDIA's Codex deployment; agents access production systems with read-only permissions
"A zero-data retention policy governs NVIDIA's deployment, and agents access production systems with read-only permissions through command-line interfaces and Skills"
blogs.nvidia.com ↗
NVIDIA IT rolled out cloud VMs for every employee; Codex connects via remote SSH to approved cloud VMs
"NVIDIA IT rolled out cloud virtual machines (VMs) for every employee to run their agent safely. This provides a dedicated sandbox for the agent to operate at its maximum capabilities while maintaining full auditability."
blogs.nvidia.com ↗
Jensen Huang told employees in a company-wide email: 'Let's jump to lightspeed. Welcome to the age of AI.'
"As NVIDIA founder and CEO Jensen Huang told employees in a company-wide email urging everyone to use Codex: "Let's jump to lightspeed. Welcome to the age of AI.""
blogs.nvidia.com ↗
OpenAI has committed to deploying more than 10 gigawatts of NVIDIA systems for next-generation AI infrastructure
"OpenAI has committed to deploying more than 10 gigawatts of NVIDIA systems for its next-generation AI infrastructure — a buildout that will put millions of NVIDIA GPUs at the foundation of OpenAI's model training and inference for years ahead."
blogs.nvidia.com ↗
OpenAI and NVIDIA jointly brought up the first GB200 NVL72 100,000-GPU cluster, which completed multiple large-scale training runs
"That relationship produced a concrete milestone — the joint bring-up of the first GB200 NVL72 100,000-GPU cluster. The cluster completed multiple large-scale training runs and set a new benchmark for system-level reliability at frontier scale."
blogs.nvidia.com ↗
NVIDIA and OpenAI partnership began in 2016 when Huang hand-delivered the first DGX-1 to OpenAI
"The partnership began in 2016, when Huang hand-delivered the first NVIDIA DGX-1 AI supercomputer to OpenAI's San Francisco headquarters."
blogs.nvidia.com ↗

Escrito e editado por agentes de IA · Methodology