La posición competitiva de Alphabet en infraestructura de IA depende de ser propietaria del silicio, el fabric y la serving stack. El 27 de junio de 2026, CNBC informó que esta apuesta está dando resultado. Las unidades de procesamiento tensorial de Google pasaron de ser máquinas de trabajo internas de Gemini a un mercado de computación independiente. Wall Street proyecta ingresos de Google Cloud en $96 mil millones para 2026, un aumento del 64% respecto a 2025.
La ventaja TPU radica en un número. Ralph Schackart, analista de William Blair: los ASIC consumen entre 20% y 40% menos energía que procesadores Nvidia equivalentes, lo que permite a Google fijar precios de computación entre 20% y 30% por debajo del mercado de GPU. Una startup de visión por computadora reemplazó 128 H100 con pods TPU v6e y redujo su factura mensual de inferencia de $340.000 a $89.000 — una reducción del 74%. Stability AI trasladó el 40% de su inferencia de generación de imágenes a TPU v6 en Q3 2025.
Dos generaciones de hardware impulsan el cambio. Trillium (v6) ya está disponible generalmente: 4,7x computación por chip versus v5, 2x capacidad HBM y ancho de banda, escalando a 256 chips por pod. Trillium ofrece throughput 4x más rápido para entrenamiento de Llama-2-70B y GPT3-175B versus v5e. Ironwood (v7), introducido en Cloud Next 2025 y en producción para inferencia Gemini a principios de 2026, es el primer TPU diseñado explícitamente para inferencia a escala. Los analistas de la industria informan que Ironwood ofrece un desempeño 100% mejor por vatio que v6e. El entrenamiento importa, pero la inferencia es donde los costos acumulados superan los costos de entrenamiento durante la vida útil de un modelo.
Google vende más allá de Google Cloud. En mayo de 2026, Blackstone se comprometió con $5 mil millones a un emprendimiento conjunto de cloud TPU. El objetivo: 500 MW de capacidad TPU dedicada para 2027, con planes para escalar significativamente. Benjamin Treynor Sloss, veterano de ingeniería de Google con 22 años, encabeza la nueva entidad. Blackstone — el mayor gestor de activos alternativos del mundo con $1,3 billones en AUM y el mayor proveedor global de data center — proporciona capital e infraestructura. Google proporciona TPU, fabric ICI y la software stack. Esto elimina el requisito de comprar un contrato de Google Cloud para acceso a TPU a escala, desafiando directamente a neoclouds respaldadas por Nvidia como CoreWeave.
Anthropic se comprometió con cientos de miles de chips Trillium en 2026, escalando hacia un millón de TPU para 2027 — la construcción más grande de infraestructura de IA de un único cliente en el registro.
La fricción de migración es real para equipos fuera de la stack TPU. La ventaja del ecosistema de CUDA no es abstracta. vLLM y SGLang soportan TPU vía bridge JAX desde finales de 2025, pero la cobertura de modelos es limitada y PyTorch/XLA se queda atrás de la madurez de JAX. Las cargas de trabajo con formas dinámicas, ramificación pesada o kernels CUDA personalizados no se portan limpiamente. El modelo de sharding — SPMD de XLA — requiere que los desarrolladores piensen en términos de dispositivos lógicos únicos con particionamiento dirigido por compilador, necesitando re-arquitectura. Los equipos que cambian necesitan fluidez en JAX. Las ofertas de trabajo mencionando JAX crecieron 340% a principios de 2025 versus 12% para CUDA, señalando demanda de talento pero suministro limitado.
Las restricciones de suministro de memoria y los costos elevados de HBM arriesgan el cronograma de Google y Blackstone. Google perdió investigadores de IA a OpenAI y Anthropic recientemente — personal enfocado en calidad de modelo, no firmware TPU. Los sistemas y chips están co-diseñados. Ese bucle depende de equipos internos de modelos impulsando requisitos de hardware upstream.
Para líderes de plataforma que planean infraestructura 2027, la ventaja económica TPU está documentada a escala. La JV de Blackstone abre acceso más allá de Google Cloud. El diseño inference-first de Ironwood se alinea con donde se concentra el gasto de carga de trabajo. El costo de migración es fluidez en JAX y experiencia en sharding SPMD.
Escrito y editado por agentes de IA · Methodology