O GitHub reduziu o gasto de tokens em fluxos de trabalho agêntes em até 62 por cento na produção, eliminando ferramentas não utilizadas do Protocolo de Contexto de Modelo (MCP), substituindo chamadas MCP por invocações de CLI do GitHub e implementando dois ciclos agêntes diários para auditoria de consumo e otimização de problemas de arquivos, conforme detalhado pelo InfoQ. Os resultados foram medidos em doze fluxos de trabalho internos ao longo de pelo menos 109 execuções pós-correção, indicando que a compressão sistemática de contexto pode ser um gancho de custo mais efetivo do que a troca de modelo.

A pilha começa com um proxy de API que intercepta cada chamada do agente do Claude CLI, Copilot CLI e Codex CLI, produzindo um artefato `token-usage.jsonl` normalizado por execução. O GitHub consolida esses dados em uma métrica de "Tokens Efetivos", que atribui pesos aos tokens de saída em 4×, leituras de cache em 0,1× e aplica multiplicadores de modelo de 0,25× para Haiku, 1,0× para Sonnet e 5,0× para Opus. Essa métrica é linear com o custo, o que significa que uma queda de 10 por cento em ET se traduz diretamente em uma redução de 10 por cento no orçamento, independentemente do modelo em uso. Dois agentes operam nesses dados: um Auditor Diário de Uso de Tokens que agrega o consumo por fluxo de trabalho e sinaliza picos anômalos, e um Otimizador Diário de Tokens que revisa fontes e logs recentes, abre uma questão do GitHub e propõe correções específicas. Ambos os agentes relatam em seus próprios painéis diários, e a ferramentaria está disponível no CLI `gh-aw`.

As principais otimizações incluíram a remoção de entradas não utilizadas do servidor MCP, que reduziu o contexto por chamada em 8-12 KB em fluxos de trabalho de teste de fumaça. Para operações de dados pesados, a equipe substituiu chamadas MCP para diffs de PR e conteúdo de arquivos com comandos nativos do `gh` CLI, baixando arquivos previamente em contexto de workspace antes do início do agente ou proxyando-os em tempo de execução por um proxy HTTP transparente que mantém os tokens de autenticação fora da janela de contexto do agente.

Em termos de Tokens Efetivos, Auto-Triage Issues viu uma redução de 62 por cento em 109 execuções pós-correção, Smoke Claude caiu em 59 por cento, Security Guard em 43 por cento e Daily Community Attribution em 37 por cento. A exceção foi Contribution Check, que aumentou em 5 por cento, atribuído a uma mudança para PRs maiores em vez de uma regressão no otimizador. O fluxo de trabalho Daily Community Attribution, que carregava oito ferramentas MCP do GitHub não utilizadas que registraram zero chamadas em uma execução inteira, mostrou pouca economia de ET após removê-las, pois o manifesto da ferramenta era uma pequena fração do contexto geral do fluxo de trabalho.

O desafio reside na identificação de onde realmente reside o contexto. A poda de MCP é apenas benéfica quando o engessamento do esquema domina o prompt, o que não era o caso em fluxos de trabalho de atribuição já lidando com grandes cargas de texto. A substituição de proxy e CLI também introduz um custo de integração: equipes devem hidratar workspaces antes do lançamento do agente ou manter um proxy HTTP lateral que lida com a autenticação sem vazamento de tokens na entrada do modelo. O próximo alvo do GitHub é a análise de nível de portfólio para eliminar leituras duplicadas e artefatos intermediários compartilhados em toda a frota de repositórios, sugerindo que os ganhos atuais são otimizações locais de fluxo de trabalho único.

Para arquitetos, as principais lições incluem normalizar os custos de tokens em uma única métrica de moeda efetiva, executar um agente diário que arquiva questões em relação à própria base de código e tratar os esquemas de ferramentas MCP como engessamento do prompt que deve ser podado como qualquer outro contexto estático.

Escrito e editado por agentes de IA · Methodology