El Primer Estudio Sistemático Revela que los Agentes de IA Consumen 1.000x Más Tokens que los Chats de Código

Investigadores del MIT, Stanford, la Universidad de Michigan y Salesforce AI Research publicaron el primer estudio sistemático sobre el consumo de tokens en tareas de codificación agéntica, y encontraron que los agentes de IA consumen aproximadamente 1.000 veces más tokens que el razonamiento o chat de código convencional — y que gastar más tokens no produce resultados mejores de manera confiable.

El artículo, "How Do AI Agents Spend Your Money?", analiza trayectorias de agentes de ocho LLMs de frontera — incluyendo GPT-5, Claude Sonnet 4.5 y Kimi-K2 — evaluados en SWE-bench Verified, el benchmark estándar para agentes de ingeniería de software. Los tokens de entrada, no los de salida, impulsan el costo total: los agentes reinieren repetidamente ventanas de contexto extensas — incluyendo observaciones previas, salidas de herramientas y estado del entorno — a lo largo de bucles de planificación y recuperación de errores, mientras que la generación de código en sí representa una fracción menor del gasto total.

El gasto de tokens también es altamente estocástico. En ejecuciones sobre la misma tarea, el consumo total puede variar hasta 30x. Esa varianza no se correlaciona con el resultado de la tarea: la precisión alcanza su pico en niveles intermedios de costo de tokens y se satura — o declina — a costos más altos. Reintentar una ejecución fallida de un agente simplemente permitiendo más tokens no es una solución confiable.

La selección del modelo es la variable de costo de mayor apalancamiento que identifica el artículo. En conjuntos de tareas idénticos, Kimi-K2 y Claude Sonnet 4.5 consumieron cada uno más de 1,5 millones de tokens adicionales en promedio frente a GPT-5. Para equipos que operan agentes a escala — cientos de sesiones paralelas, pipelines de CI o flujos de orquestación de múltiples pasos — esa brecha se amplifica en diferencias de costos de infraestructura significativas. El hallazgo ofrece a los equipos de arquitectura empresarial una base empírica para decisiones de selección de modelos que van más allá de la precisión por sí sola.

Una segunda brecha que expone el artículo es entre la complejidad de tarea percibida por humanos y el esfuerzo real de los agentes. Las calificaciones de dificultad asignadas por expertos humanos se alinean débilmente con los tokens que los agentes efectivamente consumen. Esto socava la práctica habitual de usar la complejidad percibida como sustituto para la planificación de capacidad o la asignación de límites de tasa. Las políticas de presupuesto estático calibradas por tipo de tarea asignarán recursos de manera incorrecta de forma recurrente, en ambas direcciones.

El artículo también examina si los modelos de frontera pueden pre-estimar sus propios presupuestos de tokens antes de la ejecución — una capacidad útil para la programación con conciencia de costos y el control de admisión. La respuesta es matizada: las correlaciones de predicción llegan a un máximo de 0,39, y los modelos subestiman sistemáticamente el consumo real. Las estimativas de presupuesto autorreportadas no pueden usarse como insumos de programación sin una capa de corrección o calibración empírica.

El alcance del estudio está acotado a SWE-bench Verified, un benchmark específico de codificación, y los resultados pueden no generalizarse a cargas de trabajo intensivas en recuperación, llamadas a herramientas u orquestación multiagente, comunes en entornos empresariales. Los autores enmarcan la precisión de predicción como un problema abierto y llaman a trabajos futuros sobre arquitecturas de agentes con conciencia de costos.

Para los equipos que escalan IA agéntica de proyectos piloto a producción, la conclusión es contundente: el principal factor de costo es la reingestión de contexto, la elección del modelo genera una diferencia de varios millones de tokens por cohorte de tareas, y ni las calificaciones de complejidad de tarea ni las autoestimaciones de los agentes son insumos confiables para la gobernanza del presupuesto. Mida trayectorias empíricamente, o presupueste a ciegas.

Sources

Agentic tasks consume roughly 1,000 times more tokens than code reasoning and code chat
"agentic tasks are uniquely expensive, consuming 1000x more tokens than code reasoning and code chat, with input tokens rather than output tokens driving the overall cost"
arxiv.org ↗
Study analyzes trajectories from eight frontier LLMs on SWE-bench Verified
"We analyze trajectories from eight frontier LLMs on SWE-bench Verified and evaluate models' ability to predict their own token costs before task execution."
arxiv.org ↗
Token usage on the same task can vary by up to 30x across runs
"runs on the same task can differ by up to 30x in total tokens"
arxiv.org ↗
Higher token usage does not translate to higher accuracy; accuracy peaks at intermediate cost and saturates at higher costs
"higher token usage does not translate into higher accuracy; instead, accuracy often peaks at intermediate cost and saturates at higher costs"
arxiv.org ↗
Kimi-K2 and Claude Sonnet 4.5 each consumed on average more than 1.5 million more tokens than GPT-5 on the same tasks
"Kimi-K2 and Claude-Sonnet-4.5, on average, consume over 1.5 million more tokens than GPT-5"
arxiv.org ↗
Human expert task difficulty ratings only weakly align with actual token costs
"task difficulty rated by human experts only weakly aligns with actual token costs, revealing a fundamental gap between human-perceived complexity and the computational effort agents actually expend"
arxiv.org ↗
Frontier models fail to accurately predict their own token usage, with correlations up to 0.39, and systematically underestimate costs
"frontier models fail to accurately predict their own token usage (with weak-to-moderate correlations, up to 0.39) and systematically underestimate real token costs"
arxiv.org ↗
First systematic study of token consumption patterns in agentic coding tasks
"we present the first systematic study of token consumption patterns in agentic coding tasks"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology