GitHub Reduz Custos de Tokens em 62% com Poda de MCP e Trocas de CLI

O GitHub reduziu o gasto de tokens em fluxos de trabalho agêntes em até 62 por cento na produção, eliminando ferramentas não utilizadas do Protocolo de Contexto de Modelo (MCP), substituindo chamadas MCP por invocações de CLI do GitHub e implementando dois ciclos agêntes diários para auditoria de consumo e otimização de problemas de arquivos, conforme detalhado pelo InfoQ. Os resultados foram medidos em doze fluxos de trabalho internos ao longo de pelo menos 109 execuções pós-correção, indicando que a compressão sistemática de contexto pode ser um gancho de custo mais efetivo do que a troca de modelo.

A pilha começa com um proxy de API que intercepta cada chamada do agente do Claude CLI, Copilot CLI e Codex CLI, produzindo um artefato `token-usage.jsonl` normalizado por execução. O GitHub consolida esses dados em uma métrica de "Tokens Efetivos", que atribui pesos aos tokens de saída em 4×, leituras de cache em 0,1× e aplica multiplicadores de modelo de 0,25× para Haiku, 1,0× para Sonnet e 5,0× para Opus. Essa métrica é linear com o custo, o que significa que uma queda de 10 por cento em ET se traduz diretamente em uma redução de 10 por cento no orçamento, independentemente do modelo em uso. Dois agentes operam nesses dados: um Auditor Diário de Uso de Tokens que agrega o consumo por fluxo de trabalho e sinaliza picos anômalos, e um Otimizador Diário de Tokens que revisa fontes e logs recentes, abre uma questão do GitHub e propõe correções específicas. Ambos os agentes relatam em seus próprios painéis diários, e a ferramentaria está disponível no CLI `gh-aw`.

As principais otimizações incluíram a remoção de entradas não utilizadas do servidor MCP, que reduziu o contexto por chamada em 8-12 KB em fluxos de trabalho de teste de fumaça. Para operações de dados pesados, a equipe substituiu chamadas MCP para diffs de PR e conteúdo de arquivos com comandos nativos do `gh` CLI, baixando arquivos previamente em contexto de workspace antes do início do agente ou proxyando-os em tempo de execução por um proxy HTTP transparente que mantém os tokens de autenticação fora da janela de contexto do agente.

Em termos de Tokens Efetivos, Auto-Triage Issues viu uma redução de 62 por cento em 109 execuções pós-correção, Smoke Claude caiu em 59 por cento, Security Guard em 43 por cento e Daily Community Attribution em 37 por cento. A exceção foi Contribution Check, que aumentou em 5 por cento, atribuído a uma mudança para PRs maiores em vez de uma regressão no otimizador. O fluxo de trabalho Daily Community Attribution, que carregava oito ferramentas MCP do GitHub não utilizadas que registraram zero chamadas em uma execução inteira, mostrou pouca economia de ET após removê-las, pois o manifesto da ferramenta era uma pequena fração do contexto geral do fluxo de trabalho.

O desafio reside na identificação de onde realmente reside o contexto. A poda de MCP é apenas benéfica quando o engessamento do esquema domina o prompt, o que não era o caso em fluxos de trabalho de atribuição já lidando com grandes cargas de texto. A substituição de proxy e CLI também introduz um custo de integração: equipes devem hidratar workspaces antes do lançamento do agente ou manter um proxy HTTP lateral que lida com a autenticação sem vazamento de tokens na entrada do modelo. O próximo alvo do GitHub é a análise de nível de portfólio para eliminar leituras duplicadas e artefatos intermediários compartilhados em toda a frota de repositórios, sugerindo que os ganhos atuais são otimizações locais de fluxo de trabalho único.

Para arquitetos, as principais lições incluem normalizar os custos de tokens em uma única métrica de moeda efetiva, executar um agente diário que arquiva questões em relação à própria base de código e tratar os esquemas de ferramentas MCP como engessamento do prompt que deve ser podado como qualquer outro contexto estático.

Sources

GitHub recorded token-spend reductions of up to 62% across production agentic workflows after pruning unused MCP tools, replacing MCP calls with gh CLI, and adding daily audit/optimise agents
"GitHub has published results from work to cut token usage in the agentic workflows it runs in its own repositories. The company recorded reductions of up to 62% after pruning unused Model Context Protocol (MCP) tools, replacing MCP calls with GitHub CLI invocations, and adding daily audit and optimisation agents."
infoq.com ↗
Effective Tokens metric weights output tokens 4×, cache reads 0.1×, with model multipliers Haiku 0.25×, Sonnet 1.0×, Opus 5.0×; a 10% drop in ET = 10% cost reduction
"the team uses an Effective Tokens (ET) metric that weights output tokens by 4× and cache reads by 0.1×, then applies a model multiplier (Haiku at 0.25×, Sonnet at 1.0×, Opus at 5.0×). A 10% drop in ET maps to a 10% cost reduction regardless of the model in use."
infoq.com ↗
A 40-tool GitHub MCP server adds 10–15 KB of schema per turn; removing unused tools cuts per-call context by 8–12 KB
"a GitHub MCP server with 40 tools can add 10 to 15 KB of schema per turn. Removing unused entries cuts per-call context by 8 to 12 KB in GitHub's smoke-test workflows."
infoq.com ↗
Auto-Triage Issues: 62% ET reduction over 109 post-fix runs; Smoke Claude: 59%; Security Guard: 43%; Daily Community Attribution: 37%; Contribution Check: +5% (workload shift)
"Auto-Triage Issues shows a sustained 62% ET reduction over 109 post-fix runs, Security Guard 43%, and Smoke Claude 59%. Daily Community Attribution improved 37%. One workflow, Contribution Check, recorded a 5% ET increase that GitHub attributes to a workload shift toward larger pull requests rather than a regression."
infoq.com ↗
Daily Community Attribution had 8 unused MCP tools with zero calls yet removing them yielded no ET savings — tool manifests were a small fraction of overall context
"Daily Community Attribution carried eight unused GitHub MCP tools and made zero calls to them across an entire run, yet removing them did not reduce ET. "Tool manifests were a small fraction of this workflow's overall context," GitHub wrote."
infoq.com ↗
The Auditor and Optimiser agents ship today in the gh-aw CLI; GitHub's next step is portfolio-level analysis targeting duplicated reads and shared artefacts
"The Auditor and Optimiser ship in the gh-aw CLI today. "The cheapest LLM call is the one you don't make," GitHub wrote, framing the next step as portfolio-level analysis that targets duplicated reads and shared intermediate artefacts across the fleet of workflows in a repository."
infoq.com ↗

Escrito e editado por agentes de IA · Methodology

GitHub Reduz Custos de Tokens em 62% com Poda de MCP e Trocas de CLI

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.