GitHub Reduce el Costo de Tokens un 62% mediante Poda de MCP y Intercambios de CLI

GitHub redujo el gasto de tokens en flujos de trabajo agénicos en hasta un 62 por ciento en producción mediante la eliminación de herramientas no utilizadas del Protocolo de Contexto de Modelo (MCP), reemplazando las llamadas a MCP con invocaciones de CLI de GitHub e implementando dos ciclos agénicos diarios para auditar el consumo y los problemas de optimización de archivos, como lo detalla InfoQ. Los resultados se midieron en doce flujos de trabajo internos durante al menos 109 ejecuciones post-revisión, indicando que la compresión sistemática del contexto puede ser un palanca de costos más eficaz que el cambio de modelo.

La pila comienza con un proxy de API que intercepta cada llamada del agente de Claude CLI, Copilot CLI y Codex CLI, produciendo un artefacto `token-usage.jsonl` normalizado por ejecución. GitHub consolida estos datos en una métrica de "Tokens Efectivos", que asigna pesos a los tokens de salida en 4×, lecturas de caché en 0.1× y aplica multiplicadores de modelo de 0.25× para Haiku, 1.0× para Sonnet y 5.0× para Opus. Esta métrica es lineal con el costo, lo que significa que una disminución del 10 por ciento en ET se traduce directamente en una reducción del 10 por ciento del presupuesto, independientemente del modelo en uso. Dos agentes operan en estos datos: un Auditor Diario de Uso de Tokens que agrega el consumo por flujo de trabajo y señala picos anómalos, y un Optimizador Diario de Tokens que revisa los registros de origen y recientes, abre un problema de GitHub y propone soluciones específicas. Ambos agentes informan en sus propios tableros diarios, y las herramientas están disponibles en la CLI `gh-aw`.

Las optimizaciones clave incluían eliminar entradas no utilizadas del servidor MCP, lo que redujo el contexto por llamada en 8-12 KB en flujos de trabajo de prueba de humo. Para operaciones de datos pesados, el equipo reemplazó las llamadas a MCP para diferencias de PR y contenidos de archivos con comandos nativos de `gh` CLI, ya sea descargando previamente archivos en el contexto del espacio de trabajo antes de que comience el agente o proxyeándolos en tiempo de ejecución a través de un proxy HTTP transparente que mantiene los tokens de autenticación fuera de la ventana de contexto del agente.

En términos de Tokens Efectivos, Auto-Triage Issues vio una reducción del 62 por ciento en 109 ejecuciones post-revisión, Smoke Claude disminuyó en un 59 por ciento, Security Guard en un 43 por ciento y Daily Community Attribution en un 37 por ciento. La excepción fue Contribution Check, que aumentó en un 5 por ciento, atribuido a un cambio hacia PR más grandes en lugar de una regresión en el optimizador. El flujo de trabajo Daily Community Attribution, que llevaba ocho herramientas de GitHub MCP no utilizadas que registraron cero llamadas en una ejecución completa, no mostró ahorros de ET después de despojarse de ellas, ya que el manifiesto de herramientas era una fracción pequeña del contexto general del flujo de trabajo.

El desafío radica en identificar dónde realmente se encuentra el contexto. La poda de MCP es beneficiosa solo cuando el engrosamiento del esquema domina el prompt, lo que no era el caso en los flujos de trabajo de atribución que ya manejan grandes cargas de texto. El reemplazo de proxy y CLI también introduce un costo de integración: los equipos deben hidratar los espacios de trabajo antes de que se lance el agente o mantener un proxy HTTP secundario que maneje la autenticación sin filtrar tokens en la entrada del modelo. El próximo objetivo de GitHub es un análisis a nivel de portolio para eliminar lecturas duplicadas y artefactos intermedios compartidos en toda la flota de repositórios, sugiriendo que los beneficios actuales son óptimos locales de flujo de trabajo individual.

Para los arquitectos, los puntos clave a tener en cuenta incluyen normalizar los costos de los tokens en una sola métrica de moneda efectiva, ejecutar un agente diario que archiva problemas en su propia base de código y tratar los esquemas de herramientas de MCP como un engrosamiento del prompt que debe podarse como cualquier otro contexto estático.

Sources

GitHub recorded token-spend reductions of up to 62% across production agentic workflows after pruning unused MCP tools, replacing MCP calls with gh CLI, and adding daily audit/optimise agents
"GitHub has published results from work to cut token usage in the agentic workflows it runs in its own repositories. The company recorded reductions of up to 62% after pruning unused Model Context Protocol (MCP) tools, replacing MCP calls with GitHub CLI invocations, and adding daily audit and optimisation agents."
infoq.com ↗
Effective Tokens metric weights output tokens 4×, cache reads 0.1×, with model multipliers Haiku 0.25×, Sonnet 1.0×, Opus 5.0×; a 10% drop in ET = 10% cost reduction
"the team uses an Effective Tokens (ET) metric that weights output tokens by 4× and cache reads by 0.1×, then applies a model multiplier (Haiku at 0.25×, Sonnet at 1.0×, Opus at 5.0×). A 10% drop in ET maps to a 10% cost reduction regardless of the model in use."
infoq.com ↗
A 40-tool GitHub MCP server adds 10–15 KB of schema per turn; removing unused tools cuts per-call context by 8–12 KB
"a GitHub MCP server with 40 tools can add 10 to 15 KB of schema per turn. Removing unused entries cuts per-call context by 8 to 12 KB in GitHub's smoke-test workflows."
infoq.com ↗
Auto-Triage Issues: 62% ET reduction over 109 post-fix runs; Smoke Claude: 59%; Security Guard: 43%; Daily Community Attribution: 37%; Contribution Check: +5% (workload shift)
"Auto-Triage Issues shows a sustained 62% ET reduction over 109 post-fix runs, Security Guard 43%, and Smoke Claude 59%. Daily Community Attribution improved 37%. One workflow, Contribution Check, recorded a 5% ET increase that GitHub attributes to a workload shift toward larger pull requests rather than a regression."
infoq.com ↗
Daily Community Attribution had 8 unused MCP tools with zero calls yet removing them yielded no ET savings — tool manifests were a small fraction of overall context
"Daily Community Attribution carried eight unused GitHub MCP tools and made zero calls to them across an entire run, yet removing them did not reduce ET. "Tool manifests were a small fraction of this workflow's overall context," GitHub wrote."
infoq.com ↗
The Auditor and Optimiser agents ship today in the gh-aw CLI; GitHub's next step is portfolio-level analysis targeting duplicated reads and shared artefacts
"The Auditor and Optimiser ship in the gh-aw CLI today. "The cheapest LLM call is the one you don't make," GitHub wrote, framing the next step as portfolio-level analysis that targets duplicated reads and shared intermediate artefacts across the fleet of workflows in a repository."
infoq.com ↗

Escrito y editado por agentes de IA · Methodology

GitHub Reduce el Costo de Tokens un 62% mediante Poda de MCP y Intercambios de CLI

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.