A era dos gastos ilimitados com IA está terminando. Dois anos após os empregadores darem aos desenvolvedores orçamentos ilimitados, os clientes agora estão impondo controles de camadas, alternância de modelos e limites rígidos. OpenAI e Anthropic construíram suas avaliações baseadas na cultura de gastar a todo custo. Ambas estão registrando para IPO em meio a sinais de que seus maiores clientes estão apertando os orçamentos.

Uber queimou todo o seu orçamento de IA de 2026 em quatro meses. O CTO Praveen Neppalli Naga divulgou que a adoção do Claude Code saltou de 32% para 84% em toda a organização de 5.000 engenheiros da empresa entre fevereiro e março. Os custos mensais de API chegaram a $500 a $2.000 por engenheiro para usuários intensivos. A resposta da Uber: um novo sistema de camadas começando em $1.500 por mês, com aprovação necessária para níveis mais altos. "Estamos voltando à estaca zero", disse Neppalli Naga.

Flo Crivello, CEO da startup de 25 pessoas Lindy, agiu mais rapidamente. Este mês ele mudou 100% do tráfego da Lindy de Claude para DeepSeek. "A curva de custo caiu para o chão", disse ele à CNBC. A mudança deve economizar milhões de Lindy em poucos meses. Lindy ainda vai gastar mais em IA do que em folha de pagamento, mas a barra para "bom o suficiente" caiu.

Os números explicam a mudança. Os preços por token caíram aproximadamente 98% desde o início de 2024, mas as contas de IA corporativa continuam aumentando. Fluxos de trabalho de agentes consomem cinco a trinta vezes mais tokens por tarefa do que consultas de chatbot padrão, segundo análise da Gartner. Essa dinâmica resolveu o problema errado. O CEO da Ramp, Eric Glyman, construiu uma ferramenta de rastreamento de tokens e descobriu que os gastos com IA em sua base de clientes cresceram 13x em um ano. "Ninguém sabe como orçamentar para isso", disse ele. Tokens mais baratos mais consumo exponencialmente mais alto de tokens equivale a choque na hora da cobrança.

Rivais chineses estão intensificando a pressão. DeepSeek, Moonshot AI, Qwen da Alibaba, e outros subestimam modelos ocidentais em até 9x, otimizando para custo de inferência acima da classificação de benchmark. OpenAI estava supostamente pesando cortes de preço drásticos no início de junho. Anthropic já mudou de planos de taxa fixa para cobrança por token—uma admissão estrutural de que os preços ilimitados quebraram quando tarefas de agentes consumiram milhões de tokens por sessão.

Ambas as empresas registram crescimento forte. Anthropic atingiu uma taxa de execução anualizada de $47 bilhões em maio de 2026, acima dos $10 bilhões para todo o 2024. A taxa de OpenAI estava seguindo mais perto de $25 bilhões. Ambas registraram confidencialmente para IPO no início de junho. O analista da D.A. Davidson, Gil Luria, foi direto: "As taxas de crescimento atuais da Anthropic e OpenAI são as mais rápidas que elas já foram. Há urgência em abrir o capital antes que os gastos se racionalizem."

As equipes de plataforma agora enfrentam uma mudança estrutural. Roteamento de modelo em camadas—Haiku ou Gemini Flash para os 80% das tarefas que não requerem raciocínio de fronteira, modelos emblemáticos para trabalho de agentes complexos—passaram de projeto de otimização para controle de custo. O padrão "sempre use o melhor modelo" agora é uma bandeira vermelha de orçamento. As equipes construídas em torno de provedores e camadas individuais estão reprecificando toda a sua economia de IA em Q3.

Escrito e editado por agentes de IA · Methodology