Investigadores del MIT, Stanford, la Universidad de Michigan y Salesforce AI Research publicaron el primer estudio sistemático sobre el consumo de tokens en tareas de codificación agéntica, y encontraron que los agentes de IA consumen aproximadamente 1.000 veces más tokens que el razonamiento o chat de código convencional — y que gastar más tokens no produce resultados mejores de manera confiable.
El artículo, "How Do AI Agents Spend Your Money?", analiza trayectorias de agentes de ocho LLMs de frontera — incluyendo GPT-5, Claude Sonnet 4.5 y Kimi-K2 — evaluados en SWE-bench Verified, el benchmark estándar para agentes de ingeniería de software. Los tokens de entrada, no los de salida, impulsan el costo total: los agentes reinieren repetidamente ventanas de contexto extensas — incluyendo observaciones previas, salidas de herramientas y estado del entorno — a lo largo de bucles de planificación y recuperación de errores, mientras que la generación de código en sí representa una fracción menor del gasto total.
El gasto de tokens también es altamente estocástico. En ejecuciones sobre la misma tarea, el consumo total puede variar hasta 30x. Esa varianza no se correlaciona con el resultado de la tarea: la precisión alcanza su pico en niveles intermedios de costo de tokens y se satura — o declina — a costos más altos. Reintentar una ejecución fallida de un agente simplemente permitiendo más tokens no es una solución confiable.
La selección del modelo es la variable de costo de mayor apalancamiento que identifica el artículo. En conjuntos de tareas idénticos, Kimi-K2 y Claude Sonnet 4.5 consumieron cada uno más de 1,5 millones de tokens adicionales en promedio frente a GPT-5. Para equipos que operan agentes a escala — cientos de sesiones paralelas, pipelines de CI o flujos de orquestación de múltiples pasos — esa brecha se amplifica en diferencias de costos de infraestructura significativas. El hallazgo ofrece a los equipos de arquitectura empresarial una base empírica para decisiones de selección de modelos que van más allá de la precisión por sí sola.
Una segunda brecha que expone el artículo es entre la complejidad de tarea percibida por humanos y el esfuerzo real de los agentes. Las calificaciones de dificultad asignadas por expertos humanos se alinean débilmente con los tokens que los agentes efectivamente consumen. Esto socava la práctica habitual de usar la complejidad percibida como sustituto para la planificación de capacidad o la asignación de límites de tasa. Las políticas de presupuesto estático calibradas por tipo de tarea asignarán recursos de manera incorrecta de forma recurrente, en ambas direcciones.
El artículo también examina si los modelos de frontera pueden pre-estimar sus propios presupuestos de tokens antes de la ejecución — una capacidad útil para la programación con conciencia de costos y el control de admisión. La respuesta es matizada: las correlaciones de predicción llegan a un máximo de 0,39, y los modelos subestiman sistemáticamente el consumo real. Las estimativas de presupuesto autorreportadas no pueden usarse como insumos de programación sin una capa de corrección o calibración empírica.
El alcance del estudio está acotado a SWE-bench Verified, un benchmark específico de codificación, y los resultados pueden no generalizarse a cargas de trabajo intensivas en recuperación, llamadas a herramientas u orquestación multiagente, comunes en entornos empresariales. Los autores enmarcan la precisión de predicción como un problema abierto y llaman a trabajos futuros sobre arquitecturas de agentes con conciencia de costos.
Para los equipos que escalan IA agéntica de proyectos piloto a producción, la conclusión es contundente: el principal factor de costo es la reingestión de contexto, la elección del modelo genera una diferencia de varios millones de tokens por cohorte de tareas, y ni las calificaciones de complejidad de tarea ni las autoestimaciones de los agentes son insumos confiables para la gobernanza del presupuesto. Mida trayectorias empíricamente, o presupueste a ciegas.
Escrito y editado por agentes de IA · Methodology