La semana en que el compute se convirtió en alquiler — y Claude entró en el núcleo bancario regulado
La semana en que la escasez de GPU obligó a rivales a alquilarse silicio entre sí, mientras que agentes Claude desembarcan en el núcleo bancario regulado procesando miles de instituciones a escala.
Transcript
Doscientas veintidós mil GPUs de NVIDIA.
SpaceX de Elon Musk acaba de alquilarlas a Anthropic — un competidor directo.
Este es ai|expert Wire. La semana en que el compute se convirtió en alquiler — y Claude entró en el núcleo bancario regulado.
Colossus 1 fue construido para entrenar Grok, de xAI. Trescientos megavatio. H100, H200 y GB200 lado a lado. Esta semana, esos ciclos ociosos comenzaron a ejecutar cargas de trabajo del Claude de Anthropic. El primer caso en que un laboratorio de frontera alquila su cluster de entrenamiento principal a un competidor directo. La propia SpaceX fue explícita: "el compute necesario para entrenar y operar la próxima generación de estos sistemas está superando lo que la energía terrestre, el espacio físico y el enfriamiento pueden entregar en los plazos relevantes."
Elon Musk aprobó el acuerdo personalmente después de una reunión con el liderazgo de Anthropic. Escribió en X: "Nadie activó mi detector de maldad." — un giro respecto a principios de año, cuando llamó a Claude "misantrópico y malicioso." La señal real no es la frase. Es el efecto inmediato: los límites de uso de Claude Code se duplicaron para todos los planes pagos — Pro, Max, Team y Enterprise — el mismo día. El compute comprado se convierte en capacidad disponible en horas.
El patrón importa más que el acuerdo aislado. Anthropic tiene acuerdos simultáneos de capacidad con Amazon, Google y Microsoft. Sin fuente única. Cuando hasta competidores comparten silicio, un stack monoproveedor se convirtió en riesgo de capital — no solo riesgo técnico.
Y el mercado de GPU-as-a-service está confirmando la presión. CoreWeave publicó resultados del primer trimestre de 2026: ingresos de US$ 2.08 mil millones — más del doble de los US$ 981.8 millones de hace un año — por encima del consenso de LSEG de US$ 1.97 mil millones. El CEO Mike Intrator afirmó que la empresa "alcanzó escala de hiperscaler." Diez clientes ya tienen compromisos individuales por encima de mil millones de dólares.
El backlog de ingresos es de US$ 99.4 mil millones.
Capacidad efectivamente precomprometida. CoreWeave revisó la guía de capex de 2026 a US$ 31 a US$ 35 mil millones, con planes de poner 1.7 gigavatio de energía en línea para fines de año, de un total de 3.5 gigavatio contratados. Quien no esté en la fila de acuerdos plurianuales competirá por disponibilidad spot cada vez más escasa — a precios crecientes. La ventana para negociar tasas competitivas por hora de GPU se está cerrando.
En el frente de hardware, AMD lanzó la MI350P — un acelerador PCIe con 144 GB de HBM3E y 4 TB/s de ancho de banda. Métricas teóricas de pico: 43% más rápida en FP16 y 39% más rápida en FP8 que la H200 NVL de NVIDIA.
El detalle operacional es el factor de forma PCIe. La tarjeta cabe en servidores existentes con enfriamiento por aire — sin racks personalizados, sin contratos de enfriamiento líquido, sin fabric NVLink. Hasta ocho tarjetas por sistema. Escalas inferencia de forma incremental, en lugar de comprar ocho GPUs de una sola vez como un bloque indivisible. Para cargas de trabajo de inferencia donde tokens por segundo por vatio domina la decisión de compra, ese es el argumento de entrada.
La salvedad persiste: CUDA aún domina los frameworks de inferencia. El ROCm de AMD está mejorando, pero compatibilidad no es paridad. Cualquier equipo evaluando la MI350P necesita presupuestar ciclos de integración que un deploy de NVIDIA normalmente evita. Hardware superior en el benchmark no garantiza ganancia en cargas de trabajo si el ecosistema de software no acompaña.
Lisa Su fue más allá de la tarjeta. En las ganancias de AMD, revisó el pronóstico de crecimiento del mercado de CPU de servidor de 18% anual — la proyección de noviembre — a más de 35% anual, con mercado total de US$ 120 mil millones para 2030. El argumento: las cargas de trabajo están migrando del entrenamiento pesado en GPU a la inferencia y ejecución agéntica intensiva en CPU. "Los agentes están generando una demanda tremenda en todo el ciclo de adopción de IA", dijo a CNBC. Goldman Sachs elevó AMD de hold a buy y aumentó el target de US$ 240 a US$ 450.
El tercer vértice del triángulo es la interconexión. NVIDIA cerró un acuerdo de US$ 3.2 mil millones en warrants con Corning para construir tres nuevas fábricas de fibra óptica en EE.UU. — Carolina del Norte y Texas. La capacidad óptica de Corning será multiplicada por diez. El objetivo: reemplazar los cinco mil cables de cobre dentro de los racks Vera Rubin con fibra óptica coempaquetada.
La física: mover fotones es entre cinco y veinte veces más eficiente en energía que mover electrones, según el CEO de Corning, Wendell Weeks. Pero la implicación estratégica es más dura: NVIDIA ahora controla el chip, el switching de red vía Mellanox, y el medio de interconexión. Quien esté fijando precios de infraestructura de IA para múltiples años debe poner cableado óptico como línea de costo primaria — y aceptar que ese precio será fijado por el mismo proveedor que vende las GPUs.
Segundo bloque. De lo que el silicio costó a lo que está haciendo. Compliance regulado, plantilla de personal, y latencia de producción.
Anthropic y FIS anunciaron el 4 de mayo un agente de combate a lavado de dinero construido sobre Claude. FIS procesa transacciones de miles de instituciones financieras en todo el mundo. El agente extrae dossiers completos de los sistemas core del banco, evalúa actividad transaccional contra tipologías establecidas, prioriza alertas de alto riesgo y redacta SAR — Reportes de Actividad Sospechosa. Investigaciones que tomaban días ahora se ejecutan en minutos.
Instituciones financieras en EE.UU. gastan entre US$ 35 y US$ 40 mil millones por año solo en operaciones de AML. BMO y Amalgamated Bank están en desarrollo activo. La disponibilidad general para la base de clientes de FIS está prevista para la segunda mitad de 2026. Para Anthropic, FIS no es un piloto en un banco — es una cuña de distribución que alcanza escala que ningún acuerdo directo banco a banco podría replicar. Ingenieros de Anthropic están incrustados dentro de FIS para co-diseñar el agente y transferir conocimiento. Esta es una relación insignia, no una licencia de API.
Lo que diferencia esta arquitectura de cualquier piloto de IA en banca es el control de datos. Los datos del cliente permanecen dentro de la infraestructura controlada por FIS. Cada decisión del agente es trazable y auditable. Esto elimina el argumento principal que frenó la adopción de IA en banca en los últimos dos años — que compliance requeriría acuerdos separados de residencia de datos con el proveedor de modelo.
CEO de FIS, Stephanie Ferris: "Todo banco del mundo quiere IA que actúe, no solo que observe."
Pero hay una pregunta no resuelta que determinará la velocidad de adopción a escala: si los reguladores aceptarán "decisión auditable de agente" como equivalente a "julgamento humano documentado". Esa señal aún no ha llegado. Es el riesgo real de este despliegue — no la tecnología en sí.
Esa misma semana, Cloudflare redujo 1.100 empleados — más del 20% de la fuerza laboral global. El CEO Matthew Prince anunció en la llamada de ganancias que la IA agéntica "cambió fundamentalmente" el trabajo de la empresa. El uso interno de IA creció más de 600% en los tres meses anteriores.
Lo que diferencia el caso de Cloudflare de un corte de costos convencional es que los ingresos del primer trimestre fueron de US$ 640 millones — arriba 34% año a año, por encima del consenso de US$ 622 millones. La guía anual de US$ 2.805 a US$ 2.813 mil millones también supera el consenso. La empresa no cortó porque esté mal. Cortó porque agentes reemplazaron trabajo que antes requería humanos, mientras el crecimiento continuaba.
El mercado respondió con una caída de 24% al día siguiente — a pesar de que el trimestre superó el consenso. Los inversores aún no cierran consenso: ¿es esta una ventaja de productividad estructural o riesgo de ejecución por reducir demasiado los equipos de producto y soporte? Para un CTO, la pregunta es más objetiva. Una empresa de infraestructura cloud con casi tres mil millones en ingresos anuales está reportando reducción de plantilla como resultado presente — no como proyección de ROI futuro.
El último movimiento de esta semana es infraestructura. OpenAI lanzó en alfa el modo WebSocket para la API de Responses. En lugar de que cada llamada de herramienta y cada paso de razonamiento abra un nuevo handshake HTTP completo, una única conexión persistente sustenta toda la sesión agéntica.
Los números confirmados en producción por early adopters: hasta 40% de reducción de latencia. Throughput sostenido de mil transacciones por segundo, con picos de cuatro mil TPS. Vercel reportó 40% de mejora al integrar el modo en su AI SDK. Cline registró 39% de ganancia en workflows multi-archivo. Cursor reportó ganancias de hasta 30%. Son ganancias de capa de transporte — independientes de cualquier mejora de modelo.
La salvedad es arquitectónica. WebSocket requiere gestión del ciclo de vida de conexión como preocupación de primera clase: cuánto tiempo la conexión permanece abierta, cómo se maneja la contrapresión en picos de concurrencia, cómo garantizar resiliencia en despliegues distribuidos. Los equipos que construyeron pipelines puramente stateless necesitarán replantear la gestión de sesión. La característica es compatible con Zero Data Retention — lo que elimina la objeción de compliance para la mayoría de casos enterprise. Pero aún está en alfa: la superficie de la API puede cambiar antes de la disponibilidad general.
La síntesis: el cuello de botella de IA se ha desplazado. Ya no es solo acceso al modelo. Es acceso al silicio, a la interconexión, e a la infraestructura que hace que el agente opere en tiempo real — en compliance, a escala, con latencia que el negocio acepta.
El compute se convirtió en activo de arbitraje. Los agentes entraron en compliance bancario. Y la infraestructura que sustenta ambos está siendo rediseñada al mismo tiempo. Viernes en Edition: el estudio que muestra que dos tercios de los votos en leaderboards de LLM se cancelan — y lo que eso hace con tu matriz de selección de modelo. Buena semana.