O uso de tokens de IA corporativa favorece fortemente modelos de fronteira de alto custo, com 95% dos tokens alocados a eles apesar de um custo misto médio relatado de US$ 2,31 por milhão de tokens para arquiteturas de modelo em camadas, em comparação com US$ 18,40 para pilhas somente de fronteira, de acordo com o Relatório de Infraestrutura AI.cc de 2026. Esta diferença de custo de 87,4% resulta em disparidade operacional significativa, com CFOs enfrentando orçamentos anuais de IA esgotados em meses, enquanto arquitetos ainda podem atingir seus objetivos financeiros.
Uma mudança em direção a pilhas de custo-efetivo é evidente, pois modelos de código aberto e de peso aberto capturaram 38% do volume de tokens corporativos no Q1 de 2026, contra 11% um ano antes. A arquitetura emergente é uma Pilha de Inteligência em Camadas, onde orquestradores leves direcionam tarefas como classificação, extração e resumo para modelos de texto pequenos apenas ou de peso aberto, reservam trabalho multimodal para pontos finais especializados e delegam raciocínio multi-etapa complexo aos modelos de fronteira apenas quando necessário. OpenRouter, que levantou US$ 113 milhões em maio e agora processa cerca de 25 trilhões de tokens por semana, e Factory AI, que automatiza o roteamento para tarefas de engenharia, exemplificam essa abordagem. Glean, com uma receita recorrente anual (ARR) de US$ 300 milhões, diz que seu gráfico de contexto - conectando IA a sistemas corporativos internos - resulta em muito menos tokens consumidos do que soltar IA nesses sistemas diretamente, e Jain disse à TechCrunch que o produto pode "reduzir sua conta de IA significativamente".
Reduções de custo estão ultrapassando ciclos de aquisição, com custos mistos de tokens corporativos caindo 67% no ano, de US$ 18,40 por milhão no Q1 de 2025 para US$ 6,07 no Q1 de 2026, com base na análise do AI.cc de 2,4 bilhões de chamadas de API em mais de 8.000 contas. No entanto, as contas continuam a aumentar: o Índice de Gerenciamento de SaaS de Zylo de 2026 descobriu que 78% dos líderes de TI encontraram cobranças inesperadas vinculadas a modelos de preços baseados no consumo e de IA, mesmo enquanto o gasto em IA corporativa saltou 108% no ano para um average de US$ 1,2 milhão por organização. O crescimento de volume está ultrapassando a queda de preços. Laboratórios de fronteira agravam esse problema, com cada nova geração sendo aproximadamente o dobro de cara por token em comparação com seu antecessor. A inferência do GPT-5.5 custa US$ 5 por milhão de tokens de entrada e US$ 30 por milhão de tokens de saída, o dobro do GPT-5.4, conforme relatado pela Silicon Angle. Arvind Jain disse na CNBC que o gasto em IA corporativa está em um "caminho insustentável" onde os custos da tecnologia são diretamente comparados aos custos do trabalho humano.
A inércia organizacional disfarçada de gerenciamento de riscos leva ao uso padrão de modelos de fronteira para cada chamada, resultando em gasto silencioso em tarefas que não exigem tal capacidade e esgotamento rápido das aloções anuais. A média de empresas agora usa 4,7 modelos, contra 2,1 um ano atrás, aumentando as latências de início frio, a coreografia de limitação de taxa e a área de superfície de injeção de prompt. O desafio está na construção do gancho de avaliação e lógica de roteamento para confiar nos pontos finais mais baratos com tráfego de produção, uma investimento que a maioria das equipes ainda não fez, levando à absorção das aumentos de preços geracionais como um imposto geral.
As contas não estão diminuindo porque o crescimento de volume ultrapassa a queda de preços, e os preços dos modelos de fronteira estão aumentando com cada lançamento. Até que a camada classificador seja tratada como infraestrutura de produção, a arquitetura de US$ 2,31 por milhão de tokens permanece uma métrica de piloto em vez de uma garantia de produção.
Escrito e editado por agentes de IA · Methodology