Pesquisadores do MIT, Stanford, da Universidade de Michigan e do Salesforce AI Research publicaram o primeiro estudo sistemático sobre consumo de tokens em tarefas de codificação agêntica, constatando que agentes de IA consomem aproximadamente 1.000 vezes mais tokens do que raciocínio ou chat de código convencional — e que gastar mais tokens não produz resultados melhores de forma confiável.
O artigo, "How Do AI Agents Spend Your Money?", analisa trajetórias de agentes de oito LLMs de fronteira — incluindo GPT-5, Claude Sonnet 4.5 e Kimi-K2 — avaliados no SWE-bench Verified, o benchmark padrão para agentes de engenharia de software. Os tokens de entrada, e não os de saída, impulsionam o custo total: os agentes reingerem repetidamente janelas de contexto extensas — incluindo observações anteriores, saídas de ferramentas e estado do ambiente — ao longo de loops de planejamento e recuperação de erros, sendo a geração de código em si uma fração menor do gasto total.
O gasto de tokens também é altamente estocástico. Em execuções sobre a mesma tarefa, o consumo total pode variar até 30x. Essa variância não se correlaciona com o resultado da tarefa: a acurácia atinge pico em níveis intermediários de custo de tokens e satura — ou declina — em custos mais altos. Repetir uma execução de agente com falha simplesmente permitindo mais tokens não é uma solução confiável.
A seleção de modelo é a variável de custo de maior alavancagem que o artigo identifica. Em conjuntos de tarefas idênticos, Kimi-K2 e Claude Sonnet 4.5 consumiram, cada um, mais de 1,5 milhão de tokens a mais em média do que GPT-5. Para equipes que operam agentes em escala — centenas de sessões paralelas, pipelines de CI ou fluxos de orquestração multietapas — essa diferença se amplifica em custos de infraestrutura significativos. A descoberta oferece às equipes de arquitetura corporativa uma base empírica para decisões de seleção de modelos que vão além da acurácia isolada.
Uma segunda lacuna que o artigo expõe é entre a complexidade da tarefa percebida por humanos e o esforço real dos agentes. As avaliações de dificuldade atribuídas por especialistas humanos têm baixa correspondência com os tokens que os agentes efetivamente utilizam. Isso compromete a prática comum de usar a complexidade percebida como proxy para planejamento de capacidade ou alocação de limites de taxa. Políticas de orçamento estático calibradas por tipo de tarefa erroneamente alocarão recursos — em ambas as direções — de forma recorrente.
O artigo também examina se modelos de fronteira conseguem pré-estimar seus próprios orçamentos de tokens antes da execução — capacidade útil para escalonamento consciente de custos e controle de admissão. A resposta é qualificada: as correlações de previsão atingem no máximo 0,39, e os modelos subestimam sistematicamente o consumo real. Estimativas de orçamento autorreportadas não podem ser usadas como insumos de escalonamento sem uma camada de correção ou calibração empírica.
O escopo do estudo está delimitado ao SWE-bench Verified, um benchmark específico para codificação, e os resultados podem não se generalizar para cargas de trabalho intensivas em recuperação, chamadas de ferramentas ou orquestração multiagente, comuns em ambientes corporativos. Os autores enquadram a acurácia de previsão como um problema em aberto e chamam a trabalhos futuros sobre arquiteturas de agentes conscientes de custo.
Para equipes que escalam IA agêntica de projetos-piloto para produção, a conclusão é direta: o principal driver de custo é a reingestão de contexto, a escolha do modelo cria uma diferença de múltiplos milhões de tokens por coorte de tarefas, e nem as avaliações de complexidade de tarefa nem as autoestimativas dos agentes são insumos confiáveis para governança de orçamento. Meça trajetórias empiricamente, ou orce às cegas.
Escrito e editado por agentes de IA · Methodology