La era del gasto ilimitado en IA está terminando. Dos años después de que los empleadores dieran a los desarrolladores presupuestos sin restricciones, los clientes ahora están imponiendo controles de nivel, cambio de modelo y límites estrictos. OpenAI y Anthropic construyeron sus valoraciones sobre la cultura de gastar a toda costa. Ambas están presentando solicitudes de OPI en medio de señales de que sus mayores clientes están apretando los presupuestos.

Uber agotó su presupuesto completo de IA de 2026 en cuatro meses. El CTO Praveen Neppalli Naga divulgó que la adopción de Claude Code saltó del 32% al 84% en toda la organización de 5.000 ingenieros de la empresa entre febrero y marzo. Los costos mensuales de API alcanzaron $500 a $2.000 por ingeniero para usuarios intensivos. La respuesta de Uber: un nuevo sistema de niveles comenzando en $1.500 por mes, con aprobación requerida para niveles más altos. "Estamos de vuelta al punto de partida", dijo Neppalli Naga.

Flo Crivello, CEO de la startup de 25 personas Lindy, actuó más rápido. Este mes cambió el 100% del tráfico de Lindy de Claude a DeepSeek. "La curva de costos se desplomó", le dijo a CNBC. Se proyecta que el cambio ahorre millones a Lindy en cuestión de meses. Lindy seguirá gastando más en IA que en nómina, pero la barra para "lo suficientemente bueno" ha bajado.

Los números explican el cambio. Los precios por token cayeron aproximadamente 98% desde principios de 2024, pero las facturas de IA empresarial siguen aumentando. Los flujos de trabajo de agentes consumen cinco a treinta veces más tokens por tarea que las consultas estándar de chatbot, según análisis de Gartner. Esa dinámica resolvió el problema equivocado. El CEO de Ramp, Eric Glyman, construyó una herramienta de seguimiento de tokens y encontró que el gasto en IA en su base de clientes creció 13x en un año. "Nadie sabe cómo presupuestar para esto", dijo. Tokens más baratos más consumo exponencialmente mayor de tokens equivale a un susto en el momento de la facturación.

Los rivales chinos están intensificando la presión. DeepSeek, Moonshot AI, Qwen de Alibaba, y otros subestiman los modelos occidentales hasta 9x, optimizando el costo de inferencia sobre el rango de referencia. Se informó que OpenAI estaba considerando recortes de precios drásticos a principios de junio. Anthropic ya cambió de planes de tarifa fija a facturación por token—una admisión estructural de que los precios ilimitados se rompieron cuando las tareas de agentes consumieron millones de tokens por sesión.

Ambas empresas registran un crecimiento sólido. Anthropic alcanzó una tasa de ejecución anualizada de $47 mil millones en mayo de 2026, frente a $10 mil millones para todo 2024. La tasa de OpenAI estaba acercándose a $25 mil millones. Ambas presentaron confidencialmente para OPI a principios de junio. El analista de D.A. Davidson, Gil Luria, lo dijo directamente: "Las tasas de crecimiento actuales de Anthropic y OpenAI son las más rápidas que jamás hayan sido. Hay urgencia en salir a bolsa antes de que el gasto se racionalice."

Los equipos de plataforma ahora enfrentan un cambio estructural. El enrutamiento de modelos por niveles—Haiku o Gemini Flash para el 80% de las tareas que no requieren razonamiento de frontera, modelos emblemáticos para trabajo de agentes complejos—pasó de proyecto de optimización a control de costos. El estándar "siempre use el mejor modelo" ahora es una bandera roja de presupuesto. Los equipos construidos alrededor de proveedores y niveles individuales están repreciando toda su economía de IA en Q3.

Escrito y editado por agentes de IA · Methodology