Empleados de Amazon están inflando artificialmente el consumo de tokens de IA para cumplir objetivos internos de uso — una práctica ahora lo suficientemente generalizada para tener su propio nombre: tokenmaxxing. La revelación sigue comportamiento casi idéntico documentado en Meta y Microsoft el mes pasado, sugiriendo que el problema es estructural en lugar de aislado.
Amazon estableció un objetivo requiriendo que más del 80% de sus desarrolladores usaran herramientas de IA cada semana, rastreando consumo en tableros internos. Los empleados recurrieron a MeshClaw, una plataforma de agentes interna capaz de iniciar despliegues de código, clasificar correos y interactuar con Slack, no para hacer el trabajo más rápido sino para aumentar conteos de tokens. Amazon le comunicó al personal que las estadísticas de uso no influirían en las evaluaciones de desempeño. Múltiples empleados dijeron al Financial Times que no lo creían. Uno dijo que había "tanta presión para usar estas herramientas"; otro describió cómo el rastreo creó "incentivos perversos".
La mecánica es simple: cuando una organización publica un ranking de consumo y señala — oficial o implícitamente — que números bajos conllevan riesgo de carrera, los empleados optimizan la métrica. El trabajo que genera apalancamiento real y el trabajo que genera la mayoría de tokens frecuentemente no son la misma tarea. El ranking equivalente de Meta fue eliminado en días después de la exposición pública. Amazon ha restringido desde entonces la visibilidad de las estadísticas de uso a nivel de equipo, un reconocimiento implícito de cómo se desarrolló el incentivo.
Las implicaciones empresariales se extienden mucho más allá de la política de RRHH. El gasto de capital combinado de 2026 de Amazon, Microsoft, Alphabet y Meta está rastreando entre $650 mil millones y $700 mil millones, con algunas proyecciones de Wall Street por encima de $1 billón para 2027. Cada hiperscaler ha dicho a los inversores que la capacidad de inferencia está siendo absorbida tan rápido como se despliega. El consumo interno de desarrolladores se encuentra dentro de esa cifra de absorción junto con clientes externos pagadores, e informa directamente el planeamiento de capacidad, adquisición de GPU, órdenes de HBM y compromisos de infraestructura de energía colocados años antes.
Tokenmaxxing no significa que la demanda de IA empresarial sea fabricada — las cargas de trabajo de inferencia en producción son reales y crecientes — pero oculta una distinción crítica entre adopción duradera e intensidad de consumo manipulable. El CEO de Nvidia, Jensen Huang, ha citado el consumo de tokens por ingeniero como una señal de demanda clave, afirmando que estaría "profundamente alarmado" si un ingeniero de $500 mil anuales no estuviera consumiendo al menos $250 mil en tokens anuales. Si una proporción significativa de ese consumo es performativo, las proyecciones que sustentan órdenes de GPU de nueve dígitos son más ruidosas de lo que los hiperscalers están divulgando.
Para líderes de IA empresarial, la falla de medición es la lección accionable. Angie Jones, ex-VP de ingeniería para herramientas de IA en Block, le dijo a LeadDev que espera que la industria pivote hacia medir uso eficiente de tokens en lugar de volumen bruto — un cambio que reencuadraría toda la conversación de ROI interna. Los tableros de uso y las métricas de desarrollador activo semanal son indicadores rezagados trivialmente manipulables; las medidas vinculadas a resultados como tiempo de ciclo de revisión de código, velocidad de resolución de incidentes y throughput de PR por ingeniero son más difíciles de inflar y más predictivas de si el gasto de inferencia se está multiplicando.
Los hiperscalers construyeron estructuras de incentivos que convirtieron la adopción de IA en un deporte de desempeño y obtuvieron el comportamiento que esos incentivos seleccionaron. Las empresas que copien el mismo modelo de ranking deberían esperar el mismo resultado. La pregunta para cualquier CIO que implemente herramientas LLM internas no es cuántos tokens consumieron sus desarrolladores la semana pasada — es si ese consumo movió una métrica empresarial que importaba.
Escrito y editado por agentes de IA · Methodology