WIRE Ep. 3 · 25 de abril de 2026 · 11:19

La semana en que el stack de IA fue repreciado

A IA frontier ficou mais cara enquanto open weights fecharam a diferença — e as empresas agora têm uma escolha real sobre o stack.

Hosts: Host ES

Transcript

HOST

Anthropic dejó a 69 de sus propios empleados negociar en un marketplace interno — estilo Craigslist de clasificados — donde cada oferta, cada contrapropuesta y cada acuerdo fue cerrado por agentes Claude, sin intervención humana. Ciento ochenta y seis transacciones, más de cuatro mil dólares en valor total. El dato que queda: quien tenía el modelo más débil salió perdiendo dinero real sin saber por qué. Esa asimetría invisible es el hilo que une la semana. Hoy: GPT-5.5 dobla el precio y NVIDIA pone a diez mil empleados a trabajar en él; Google compromete cuarenta mil millones de dólares en Anthropic mientras DeepSeek y Alibaba entregan pesos abiertos que rivalizan con la infraestructura cerrada; y Cohere y Aleph Alpha se fusionan en un player soberano de veinte mil millones.

HOST

El experimento tiene nombre: Project Deal, realizado en diciembre de 2025. Anthropic reclutó a 69 empleados, le dio a cada uno un presupuesto de cien dólares y entrevistó a cada participante con Claude para capturar qué querían vender, sus precios de reserva, preferencias de compra y estilo de negociación. Esa información se convirtió en system prompts personalizados. Los agentes fueron a canales de Slack y negociaron solos — listaron productos, hicieron ofertas, contrapropusieron, cerraron acuerdos, sin ninguna señal para que el humano del otro lado interviniera. Al final de la semana, los participantes se reunieron en persona para intercambiar los bienes físicos que sus agentes habían negociado: desde una tabla de snowboard hasta una bolsa de diecinueve pelotas de ping-pong.

HOST

El sub-estudio encubierto dentro del experimento es la parte que importa a la industria. Anthropic ejecutó cuatro instancias paralelas del mismo marketplace. En configuraciones con Claude Opus 4.5 — el modelo frontier de entonces — los agentes obtuvieron resultados objetivamente mejores para sus dueños. En configuraciones con Claude Haiku 4.5, el más pequeño de la familia, los resultados fueron peores. Y el grupo perjudicado no se dio cuenta de que estaba perdiendo. Ese último punto es lo que convierte un experimento interno de una semana en una cuestión regulatoria de largo plazo: si la desventaja es invisible para el principal humano, no hay señal de mercado que empuje a las organizaciones hacia modelos más fuertes. La parte con el agente débil no tiene forma de reclamar. La parte con el agente fuerte no tiene incentivo para nivelar el campo voluntariamente. En sectores con obligaciones fiduciarias — servicios financieros, contratación gubernamental — esto deja de ser una cuestión de costo de API y se convierte en una cuestión de responsabilidad legal.

HOST

En la semana en que Anthropic publicó esos resultados, OpenAI lanzó GPT-5.5. El precio de API, cuando llegue al mercado: cinco dólares por millón de tokens de entrada y treinta por millón de salida — exactamente el doble de GPT-5.4, que cuesta dos dólares con cincuenta en entrada y quince en salida. La versión Pro sube a treinta dólares en entrada y ciento ochenta en salida. El modelo está disponible hoy en Codex y liberándose gradualmente para suscriptores pagos de ChatGPT; la API formal llega "muy pronto", según OpenAI. La justificación para el retraso: "los despliegues en API requieren salvaguardas distintas y estamos trabajando con socios y clientes en los requisitos de seguridad."

HOST

Hay una ventana de acceso antes de que el precio completo entre en vigor, y está oficialmente sancionada. El líder de developer relations de OpenAI, Romain Huet, declaró en marzo: "Queremos que la gente use Codex y la suscripción de ChatGPT donde quiera — en la app, en la terminal, en JetBrains, en Xcode, en Claude Code." El Codex CLI es open source. El endpoint de backend es público. Los equipos con suscripción ChatGPT Pro o Team pueden acceder a GPT-5.5 hoy por esa vía y ejecutar evaluaciones de producción antes de comprometerse con el cobro por token. El investigador Simon Willison publicó un plugin que automatiza la autenticación leyendo los tokens almacenados por el Codex CLI. Cuando la API formal abra, esa ventana se cierra.

HOST

¿Qué justifica el precio duplicado? El profesor Ethan Mollick, de Wharton, tuvo acceso anticipado y publicó los resultados. Le dio la misma tarea a todos los modelos disponibles — desde o3 hasta el mejor modelo de peso abierto actual, Kimi K2.6 — y a GPT-5.5 Pro: construir una simulación 3D generada proceduralmente que mostrara la evolución de una ciudad portuaria desde el año 3000 a.C. hasta el 3000 d.C. GPT-5.5 Pro completó la tarea en veinte minutos. GPT-5.4 Pro tardó treinta y tres. Los modelos competidores generaron reemplazos estáticos de edificios a lo largo del tiempo — no evolución de ciudad. Solo GPT-5.5 Pro modeló emergencia sistémica.

HOST

En el segundo test, Mollick le entregó al Codex una carpeta con una década de archivos brutos de investigación sobre crowdfunding — en STATA, CSV, XLS y Word — que nunca habían sido publicados. Cuatro prompts después, Codex entregó un paper académico completo con revisión de literatura, hipótesis nueva y análisis estadístico sofisticado. Las citas eran reales. La estadística era real. Mollick evaluó el resultado como equivalente a un proyecto sólido de segundo año de PhD — "estaría muy contento si este paper fuera el resultado de un proyecto de segundo año de doctorado." El modelo tiene gaps — Mollick llama al frontier "irregular" — pero la curva de capacidad es verificable.

HOST

NVIDIA resuelve la ecuación de costo del lado de la infraestructura. La empresa desplegó GPT-5.5 vía Codex para todos sus más de diez mil empleados, corriendo en los sistemas rack-scale GB200 NVL72 — hardware que entrega treinta y cinco veces menos costo por millón de tokens y cincuenta veces más tokens por segundo por megawatt en comparación con sistemas de la generación anterior. El equipo de TI de NVIDIA provisionó una máquina virtual dedicada por empleado, con política de cero retención de datos y acceso de solo lectura a producción vía línea de comandos. Los ingenieros reportan ciclos de debug que tardaban días cerrándose en horas; experimentos de semanas corriendo de un día para otro en codebases complejos con múltiples archivos. El despliegue cubre ingeniería, producto, legal, marketing, finanzas, ventas, RR.HH., operaciones y programas para desarrolladores — posiblemente el mayor rollout de un único agente frontier en una sola empresa registrado hasta hoy.

HOST

El capital que sostiene ese ciclo llegó en volumen la misma semana. Google invertirá hasta cuarenta mil millones de dólares en Anthropic — diez mil millones de forma inmediata a una valuación de trescientos cincuenta mil millones, con hasta treinta mil millones adicionales atados a metas de desempeño. El paquete incluye un compromiso de cinco gigawatts de capacidad de cómputo en Google Cloud a lo largo de cinco años, apilado sobre una asociación previa con Broadcom que un filing de securities situó en tres punto cinco gigawatts de TPUs a partir de 2027. Amazon agregó otros cinco mil millones la misma semana — parte de un acuerdo mayor bajo el cual Anthropic debe comprometer hasta cien mil millones por aproximadamente cinco gigawatts de capacidad a lo largo del tiempo. Anthropic también cerró un acuerdo separado de capacidad de datacenter con CoreWeave. La empresa ahora tiene compromisos de múltiples gigawatts de dos de los tres hyperscalers de forma simultánea.

HOST

La estructura que emerge no tiene precedente directo en el sector. Google compite con Anthropic en la capa de modelos a través de Gemini. Provee los TPUs que sustentan la inferencia de Claude. Y ahora tiene la mayor posición de inversor individual en la empresa — con visibilidad sobre el roadmap técnico y apalancamiento de precios sobre la estructura de costos del competidor. Para los arquitectos de IA que evalúan el riesgo de dependencia de proveedor, esto ya no es solo una cuestión de gasto en la nube. Es una cuestión de gobernanza.

HOST

La contraposición al mercado cerrado llegó en pesos abiertos. DeepSeek lanzó el V4-Pro — un billón seiscientos mil millones de parámetros totales, cuarenta y nueve mil millones activos, arquitectura mixture-of-experts — y el V4-Flash, con doscientos ochenta y cuatro mil millones totales y trece mil millones activos. Ambos de código abierto con API disponible hoy. El V4-Pro reivindica estado del arte en modelos abiertos en Math, STEM y coding, con paridad afirmada frente a los mejores sistemas cerrados. En conocimiento del mundo, el V4-Pro solo cede ante Gemini-3.1-Pro entre todos los modelos actuales. El contexto de un millón de tokens es ahora el estándar en todos los servicios oficiales de DeepSeek — lo que la mayoría de los competidores propietarios cobra como tier premium. Los modelos deepseek-chat y deepseek-reasoner están siendo discontinuados, con fecha de sunset para el 24 de julio de 2026. Los resultados de benchmark son auto-reportados — la verificación independiente debería aparecer en los próximos días — pero los pesos están abiertos para que la comunidad confirme.

HOST

Alibaba fue en la misma dirección, con una eficiencia que reescribe la ecuación de infraestructura. El Qwen3.6-27B es un modelo denso de veintisiete mil millones de parámetros que puntúa 77,2% en SWE-bench Verified — superando al predecesor Qwen3.5-397B-A17B, que marcó 76,2% pero pesaba ochocientos siete gigabytes. El nuevo modelo pesa cincuenta y cinco punto seis gigabytes. En la cuantización Q4_K_M, cabe en dieciséis punto ocho gigabytes — una sola GPU de consumo. El investigador Simon Willison midió veinticinco punto cincuenta y siete tokens por segundo corriendo localmente con llama.cpp. El modelo usa una arquitectura híbrida Gated DeltaNet con una ventana de contexto nativa de 262 mil tokens, extensible a un millón. Licencia Apache 2.0, sin restricciones de uso. Una reducción de 14,5 veces en el tamaño de archivo entre dos flagships consecutivos de coding open-weight, con victoria en el benchmark líder de coding agéntico. Los equipos que estaban evaluando infraestructura multi-nodo para agentes de coding deben ejecutar el Qwen3.6-27B antes de renovar contratos.

HOST

La semana cierra con un movimiento estructural en el mercado europeo. Cohere, de Canadá, y Aleph Alpha, de Alemania, anunciaron una fusión en una empresa de IA empresarial valuada en veinte mil millones de dólares. La ronda Series E de seiscientos millones de dólares está anclada por el Schwarz Group — el mayor minorista de Europa, operador de Lidl y Kaufland en treinta y dos países y ya inversor existente de Aleph Alpha. El acuerdo aún no se ha cerrado y está sujeto a revisión regulatoria. La tesis es directa: un puñado de laboratorios americanos — OpenAI, Anthropic, Google DeepMind, Meta — domina la IA comercial. La fusión busca dar a empresas y gobiernos una alternativa con soberanía de datos incorporada y cumplimiento del AI Act de la UE desde la base, no retroactivo. Aleph Alpha ya opera un asistente gubernamental con ochenta mil usuarios en el sector público alemán. Un documento de requisitos de ingeniería automotriz con procesamiento cuarenta por ciento más rápido. Una búsqueda corporativa que redujo el tiempo de investigación en noventa por ciento. Cuando el mayor minorista de Europa escribe un cheque de seiscientos millones para financiar una alternativa soberana de IA, eso es una apuesta operacional — no una posición de portafolio.

HOST

El cuadro de la semana: el frontier se encareció. GPT-5.5 dobló el precio de API. El Project Deal de Anthropic demostró empíricamente que la brecha entre tiers de modelo produce resultados desiguales, invisibles para el usuario final. Al mismo tiempo, la presión en la dirección contraria nunca fue mayor: DeepSeek V4-Pro y Qwen3.6-27B entregan paridad de benchmark en pesos abiertos con una fracción del footprint que existía hace tres meses. Para los CTOs con decisiones de build-versus-buy sobre la mesa esta semana: las brechas de capacidad son reales, pero las opciones de peso abierto que no existían en el primer trimestre existen ahora. Esta es la semana para revisar la política de tiers de modelos de su organización — y el riesgo de dependencia de proveedor que están aceptando sin darse cuenta.

HOST

El viernes, en The Edition, John y Maria profundizan en lo que la curva de precios de GPT-5.5 y DeepSeek V4 significan para el presupuesto de modelos de 2026 — más el paper de RL de Mila que discretamente cerró un debate de un año sobre entrenamiento. Mientras tanto, el artículo completo sobre el Project Deal de Anthropic está en el sitio. Vale la pena leerlo hasta el último párrafo.

Transcript

Recibe la señal antes del ruido.