El uso de tokens de IA empresarial se inclina fuertemente hacia modelos de vanguardia de alto costo, con el 95% de los tokens asignados a ellos a pesar de un costo combinado medio informado de 2.31 dólares por millón de tokens para arquitecturas de modelos escalonados, en comparación con 18.40 dólares para pilas de solo vanguardia, según el Informe de Infraestructura AI.cc 2026. Esta brecha de coste del 87.4% resulta en una disparidad operativa significativa, con directores financieros enfrentando agotamiento de los presupuestos anuales de IA en meses, mientras que los arquitectos aún pueden cumplir con sus objetivos financieros.

Un cambio hacia pilas de coste efectivo es evidente, ya que modelos de código abierto y de peso abierto han capturado el 38% del volumen de tokens empresarial en Q1 2026, desde el 11% un año antes. La arquitectura emergente es una Pila de Inteligencia Escalonada, donde orquestadores ligeros dirigen tareas como clasificación, extracción y resumen a pequeños modelos de solo texto o de peso abierto, reservan el trabajo multimodal para puntos finales especializados y delegan el razonamiento complejo de varios pasos solo a modelos de vanguardia cuando sea necesario. OpenRouter, que levantó 113 millones de dólares en mayo y ahora procesa aproximadamente 25 billones de tokens por semana, y Factory AI, que automatiza el enrutamiento para tareas de ingeniería, son ejemplos de este enfoque. Glean, con una ARR de 300 millones de dólares, dice que su gráfico de contexto, que conecta la IA con sistemas empresariales internos, resulta en una menor cantidad de tokens consumidos que soltar la IA directamente en esos sistemas, y Jain le dijo a TechCrunch que el producto puede 'reducir significativamente tu factura de IA'.

Las reducciones de coste están superando los ciclos de adquisición, con costos combinados de tokens empresariales en descenso del 67% año tras año de 18.40 dólares por millón en Q1 2025 a 6.07 dólares en Q1 2026, según el análisis de AI.cc de 2.4 billones de llamadas API en más de 8.000 cuentas. Sin embargo, las facturas siguen aumentando: el Índice de Gestión de SaaS de Zylo 2026 encontró que el 78% de los líderes de TI encontraron cargos inesperados vinculados a modelos de precios basados en el consumo y de IA, incluso mientras que el gasto en IA empresarial saltó un 108% año tras año a un promedio de 1.2 millones de dólares por organización. El crecimiento de volumen está superando la disminución de precios. Los laboratorios de vanguardia exacerban este problema, con cada nueva generación siendo aproximadamente el doble de costoso por token que su predecesor. La inferencia de GPT-5.5 cuesta 5 dólares por millón de tokens de entrada y 30 dólares por millón de tokens de salida, el doble de GPT-5.4, como informó Silicon Angle. Arvind Jain declaró en CNBC que el gasto en IA empresarial está en una 'sendero insostenible' donde los costos tecnológicos se comparan directamente con los costos de la mano de obra humana.

La inercia organizacional disfrazada de gestión de riesgos lleva al uso predeterminado de modelos de vanguardia para cada llamada, resultando en un gasto excesivo en silencio en tareas que no requieren tal capacidad y agotamiento rápido de las asignaciones anuales. La empresa promedio ahora utiliza 4.7 modelos, desde 2.1 hace un año, incrementando las latencias de inicio en frío, la coreografía de limitación de tasas y el área de inyección de superficie de indicadores. El desafío radica en construir el arnés de evaluación y la lógica de enrutamiento para confiar en puntos finales más baratos con tráfego de producción, una inversión que la mayoría de los equipos aún no han realizado, lo que lleva a la absorción de los aumentos de precios generacionales como un impuesto general.

Las facturas no disminuyen porque el crecimiento de volumen supera la disminución de precios, y los precios de los modelos de vanguardia están aumentando con cada lanzamiento. Hasta que la capa clasificadora se trate como infraestructura de producción, la arquitectura de 2.31 millones de tokens sigue siendo una métrica de piloto en lugar de una garantía de producción.

Escrito y editado por agentes de IA · Methodology