GitHub redujo el gasto de tokens en flujos de trabajo agénicos en hasta un 62 por ciento en producción mediante la eliminación de herramientas no utilizadas del Protocolo de Contexto de Modelo (MCP), reemplazando las llamadas a MCP con invocaciones de CLI de GitHub e implementando dos ciclos agénicos diarios para auditar el consumo y los problemas de optimización de archivos, como lo detalla InfoQ. Los resultados se midieron en doce flujos de trabajo internos durante al menos 109 ejecuciones post-revisión, indicando que la compresión sistemática del contexto puede ser un palanca de costos más eficaz que el cambio de modelo.

La pila comienza con un proxy de API que intercepta cada llamada del agente de Claude CLI, Copilot CLI y Codex CLI, produciendo un artefacto `token-usage.jsonl` normalizado por ejecución. GitHub consolida estos datos en una métrica de "Tokens Efectivos", que asigna pesos a los tokens de salida en 4×, lecturas de caché en 0.1× y aplica multiplicadores de modelo de 0.25× para Haiku, 1.0× para Sonnet y 5.0× para Opus. Esta métrica es lineal con el costo, lo que significa que una disminución del 10 por ciento en ET se traduce directamente en una reducción del 10 por ciento del presupuesto, independientemente del modelo en uso. Dos agentes operan en estos datos: un Auditor Diario de Uso de Tokens que agrega el consumo por flujo de trabajo y señala picos anómalos, y un Optimizador Diario de Tokens que revisa los registros de origen y recientes, abre un problema de GitHub y propone soluciones específicas. Ambos agentes informan en sus propios tableros diarios, y las herramientas están disponibles en la CLI `gh-aw`.

Las optimizaciones clave incluían eliminar entradas no utilizadas del servidor MCP, lo que redujo el contexto por llamada en 8-12 KB en flujos de trabajo de prueba de humo. Para operaciones de datos pesados, el equipo reemplazó las llamadas a MCP para diferencias de PR y contenidos de archivos con comandos nativos de `gh` CLI, ya sea descargando previamente archivos en el contexto del espacio de trabajo antes de que comience el agente o proxyeándolos en tiempo de ejecución a través de un proxy HTTP transparente que mantiene los tokens de autenticación fuera de la ventana de contexto del agente.

En términos de Tokens Efectivos, Auto-Triage Issues vio una reducción del 62 por ciento en 109 ejecuciones post-revisión, Smoke Claude disminuyó en un 59 por ciento, Security Guard en un 43 por ciento y Daily Community Attribution en un 37 por ciento. La excepción fue Contribution Check, que aumentó en un 5 por ciento, atribuido a un cambio hacia PR más grandes en lugar de una regresión en el optimizador. El flujo de trabajo Daily Community Attribution, que llevaba ocho herramientas de GitHub MCP no utilizadas que registraron cero llamadas en una ejecución completa, no mostró ahorros de ET después de despojarse de ellas, ya que el manifiesto de herramientas era una fracción pequeña del contexto general del flujo de trabajo.

El desafío radica en identificar dónde realmente se encuentra el contexto. La poda de MCP es beneficiosa solo cuando el engrosamiento del esquema domina el prompt, lo que no era el caso en los flujos de trabajo de atribución que ya manejan grandes cargas de texto. El reemplazo de proxy y CLI también introduce un costo de integración: los equipos deben hidratar los espacios de trabajo antes de que se lance el agente o mantener un proxy HTTP secundario que maneje la autenticación sin filtrar tokens en la entrada del modelo. El próximo objetivo de GitHub es un análisis a nivel de portolio para eliminar lecturas duplicadas y artefactos intermedios compartidos en toda la flota de repositórios, sugiriendo que los beneficios actuales son óptimos locales de flujo de trabajo individual.

Para los arquitectos, los puntos clave a tener en cuenta incluyen normalizar los costos de los tokens en una sola métrica de moneda efectiva, ejecutar un agente diario que archiva problemas en su propia base de código y tratar los esquemas de herramientas de MCP como un engrosamiento del prompt que debe podarse como cualquier otro contexto estático.

Escrito y editado por agentes de IA · Methodology