EDITION Ep. 11 · 22 de mayo de 2026 · 11:51

La semana en que la memoria se convirtió en el cuello de botella y los agentes fueron a producción

La semana en que el costo de IA migró de la GPU a la memoria, los agentes enfrentaron sistemas reales de empresas, y la investigación entregó métricas honestas para medir lo que realmente está en producción.

Hosts: Alan · Ada ES

Transcript

JOHN

Siete punto ocho millones de dólares. Es el costo de un rack Vera Rubin. Y dos millones de eso es solo memoria.

MARIA

Cuatrocientos treinta y cinco por ciento de aumento en comparación con la generación anterior. El costo de la memoria ahora crece más rápido que el de la GPU — y el cuello de botella de costo en IA cambió de dirección.

JOHN

Esta es la ai|expert Edition. La semana en que el costo de infraestructura migró de la GPU a la memoria, los agentes entraron en sistemas reales de empresas, y la investigación entregó las métricas que necesitábamos para medir lo que realmente está en producción. Vamos a desglosar la aritmética. Un rack Vera Rubin VR200 NVL72 costará, según estimaciones de Morgan Stanley, siete punto ocho millones de dólares a los hyperscalers. La GPU domina en volumen: setenta y dos GPUs Rubin, a cincuenta y cinco mil dólares cada una en órdenes de volumen, suman tres punto noventa y seis millones de dólares — el mayor artículo de línea individual en la lista de materiales. Pero la memoria llegó a dos millones de dólares. Veinticinco por ciento del costo total del sistema yendo a memoria es una proporción que no existía en ninguna generación anterior de acelerador de Nvidia.

MARIA

Y lo que importa no es solo dónde está el número hoy — es la trayectoria. En el GB300 NVL72 de la generación anterior, la memoria costaba una fracción de eso. En Vera Rubin, creció cuatrocientos treinta y cinco por ciento. La GPU también se encarecio, pero no a ese ritmo. El costo de la memoria ahora crece más rápido que el costo de compute. El culpable son tres capas simultáneas, no una. El rack VR200 lleva cincuenta y cuatro terabytes de LPDDR5X — tres veces más que los diecisiete terabytes del GB200. SemiAnalysis estima que Nvidia pagó ocho dólares por gigabyte de LPDDR5X en el primer trimestre de 2026. A ese precio, solo el LPDDR5X suma cuatrocientos ocho mil dólares por rack. Si el precio sube a diez dólares — lo que el mercado upstream está señalando — llegamos a quinientos cuarenta mil. Por rack.

JOHN

Y hay una tercera línea en la lista de materiales que simplemente no existía antes. Almacenamiento 3D NAND: aproximadamente un millón de dólares por rack. En el GB200 NVL72, ese número era prácticamente cero. Una categoría completamente nueva en el costo del sistema. Cuando sumas LPDDR5X, NAND y el HBM4 integrado en las propias GPUs Rubin, la memoria en todas sus formas domina la curva de costo del cluster. Esto no es fluctuación de commodity — es cambio estructural en la composición de la lista de materiales.

MARIA

Y el mercado upstream confirma que la presión no es temporal. Fabricantes taiwaneses de módulos de memoria — Adata, TeamGroup, Innodisk, GoldKey, Apacer, Transcend, Silicon Power — recaudaron colectivamente veintiocho mil millones de dólares taiwaneses, aproximadamente ochocientos ochenta millones de dólares estadounidenses, a través de obligaciones convertibles, préstamos sindicalizados y colocaciones de acciones privadas. Solo para poder comprar y almacenar chips mientras los precios se disparan. Adata es el mayor prestatario individual: dos mil millones en obligaciones convertibles, doce mil millones en préstamos bancarios sindicalizados, y una colocación de acciones privada de treinta millones de acciones aún pendiente.

JOHN

TrendForce estimó que los precios de contrato de DRAM convencional subieron entre noventa y noventa y cinco por ciento en el primer trimestre de 2026, con un cincuenta y ocho a sesenta y tres por ciento adicional proyectado para el segundo trimestre. NAND flash subió aproximadamente sesenta por ciento en el primer trimestre, con una proyección de setenta a setenta y cinco por ciento adicional en el segundo. En una revisión publicada a principios de mayo, el precio de DRAM móvil fue ajustado hacia arriba: noventa y tres a noventa y ocho por ciento de aumento trimestral, mientras Samsung, Micron y SK Hynix finalizaban negociaciones con clientes.

MARIA

El detalle comportamental más revelador de esta semana: el presidente de Adata, Simon Chen, confirmó que proveedores de servicios en nube se acercaron a la empresa para cerrar acuerdos de suministro a largo plazo. Describió esto como "ocurrencia rara". Cuando un hyperscaler llama a la puerta de un fabricante de módulos de memoria para contratar directamente, es porque la asignación a través de fab no está cubriendo la demanda. Las fábricas priorizan DRAM de servidor y HBM — que van directo a clusters de GPU y aceleradores de IA — sobre DRAM de consumo. La nueva capacidad de fab no debe llegar en volumen antes de fin de 2027. Los fabricantes de módulos están adquiriendo deuda para mantener posición de mercado, no para expandir capacidad.

JOHN

La conclusión práctica para arquitectos es directa: si estás presupuestando un cluster de inferencia para la segunda mitad de 2026, no uses los precios de memoria del año pasado como referencia. Modela al menos sesenta por ciento más. Diseño eficiente en memoria, estrategias de cuantización que minimicen presión sobre memoria de activaciones, y evaluación cuidadosa de almacenamiento NAND en pipelines de inferencia dejaron de ser optimizaciones de desempeño — son decisiones directas de capex. Mientras el costo de hardware explota, la geografía de quién fabrica ese hardware está siendo rediseñada. Jensen Huang confirmó en la llamada de resultados del primer trimestre de Nvidia — con ingresos creciendo ochenta y cinco por ciento año a año a ochenta y uno punto sesenta y dos mil millones de dólares — que la compañía "en gran medida cedió" el mercado chino de aceleradores de IA a Huawei. China, que ya respondía por al menos un quinto de los ingresos de data center de Nvidia, fue anulada en las proyecciones internas de la compañía.

MARIA

La frase exacta de Huang: "We've really largely conceded that market to them." Eso es más revelador que el número de ingresos, porque Nvidia creció ochenta y cinco por ciento sin China. El mercado disponible fuera de China es lo suficientemente grande para justificar no intentar trabajar alrededor de los controles. La administración Trump requirió licencias para exportar H100, H200 y chips relacionados en abril. Huang dijo a los inversores que "no esperen nada" en términos de aprobaciones. Alibaba, Tencent, ByteDance y JD.com recibieron aprobaciones individuales para H200 — pero un representante comercial estadounidense confirmó que los controles de exportación de chips fueron excluidos de las negociaciones bilaterales de mayo con China.

JOHN

Huawei respondió con el Ascend 910C: chip dual-chiplet en el proceso DUV de siete nanómetros de SMIC, entregando hasta ochocientos teraFLOPS en FP16, ciento veintiocho gigabytes de HBM, tres punto dos terabytes por segundo de ancho de banda de memoria. Huawei proyecta producción de seiscientas mil unidades en 2026 — casi el doble de la producción de 2025. A nivel de rack, el CloudMatrix 384 integra trescientos ochenta y cuatro chips Ascend 910C y entrega aproximadamente trescientos petaFLOPS en BF16, versus ciento ochenta del GB200 NVL72 de Nvidia en términos brutos.

MARIA

Con cuatro veces más consumo de energía y dos punto tres veces menos eficiencia por vatio. La escala bruta existe — más silicio, clusters más grandes — y funciona para inferencia en producción. Pero hay una evidencia empírica que importa más que cualquier comparación de benchmark: DeepSeek abandonó el hardware Ascend durante el entrenamiento de R2 después de encontrar fallas de estabilidad y throughput a escala y volvió a H800s. Cuando el laboratorio chino que más invierte en optimización de hardware no puede hacer funcionar el hardware doméstico para entrenamiento de frontera, la limitación es real y documentada.

JOHN

Bernstein Research coloca la participación de mercado de Nvidia en China en ocho por ciento en 2026, versus sesenta y seis por ciento en 2024. Huawei está en cincuenta por ciento. El mercado de aceleradores en China no está encogiéndose — está siendo servido por otra compañía, con otra arquitectura de software. Huang aún quiere volver: "We would be more than delighted to serve the market." Pero la propia guidance de Nvidia asume que la puerta permanece cerrada.

MARIA

Lo que esto cambia para todos fuera de China: la demanda global de Nvidia está concentrada en los mercados que la compañía aún puede servir. Eso presiona precios y plazos de entrega globalmente. Y hay una pregunta de software que equipos con workloads orientados a China necesitan resolver ahora: el CANN de Huawei hace bridge a PyTorch a través de capas de adaptación y funciona para workloads Transformer estándar. Pero el soporte de FP8 en el Ascend 910C no está confirmado. Los pipelines de inferencia construidos en cuantización FP8 — el estándar en producción en H100 y posteriores — retroceden a INT8 o FP16 en Ascend, con throughput efectivo reducido. Si tu stack depende de FP8, resuelve ese problema de ingeniería antes de comprometerte con la plataforma.

JOHN

Y esta semana el capital privado hizo una gran apuesta en la siguiente capa del stack. Blackstone y Google anunciaron una joint venture de veinticinco mil millones de dólares para crear un cloud dedicado de TPU — el primer canal de distribución de terceros para el silicio de Google fuera de la interfaz estándar de GCP. Blackstone pone cinco mil millones de dólares en equity inicial, con el resto del valor en deuda estructurada contra activos de data center y equipos. Meta: quinientos megawatts de capacidad en línea para 2027.

MARIA

El modelo sigue el template de CoreWeave aplicado al silicio de Google: infraestructura de terceros ejecutando aceleradores de un único proveedor como compute-as-a-service. Blackstone trae profundidad en data center — es el mayor proveedor global, dueño de QTS Realty Trust desde 2021. Google suministra TPUs, software y servicios. Benjamin Treynor Sloss, quien pasó más de dos décadas construyendo la infraestructura global de Google, está dejando la compañía para liderar la nueva entidad como CEO. Thomas Kurian, CEO de Google Cloud, describió los TPUs como "específicamente optimizados para eficiencia y desempeño en la era de IA".

JOHN

El historial existe: Anthropic, Citadel Securities y Gemini mismo ya ejecutan workloads de producción en TPUs. El chip existe desde 2015 — una década de uso en producción, diseño propósito-construido para entrenamiento e inferencia de IA, con ventaja documentada de eficiencia para workloads agentivos.

MARIA

Pero ningún precio fue divulgado en el anuncio. Ningún SLA, ningún benchmark de latencia, ningún costo por exaflop. Y la restricción arquitectural central no ha cambiado: los TPUs funcionan mejor en JAX y XLA. Workloads construidos en PyTorch y CUDA requieren porting no trivial. Un nuevo canal de procurement no es una nueva arquitectura de chip. Espera los números operacionales antes de cualquier plan de migración. Blackstone también apostó en Anthropic separadamente a principios de mayo — esa es una estrategia de portafolio de compute, no una elección de stack único.

JOHN

Los agentes de IA pasando de demo a producción es el hilo que atraviesa todas las noticias de producto de esta semana. Anthropic, en el evento Code with Claude en Londres el diecinueve de mayo, lanzó en public beta sandboxes auto-hospedados y en research preview MCP Tunnels. Ambos atacan el mismo cuello de botella: equipos de seguridad que se rehúsan a aprobar agentes cuyo ambiente de ejecución vive fuera del perímetro corporativo.

MARIA

La arquitectura separa dos problemas que vinieron embalados antes. El loop del agente — orquestación, gestión de contexto, recuperación de errores — permanece en la infraestructura de Anthropic. La ejecución de herramientas migra al ambiente controlado por el cliente. Cuatro proveedores gestionados en el lanzamiento: Cloudflare con microVMs e inyección de secretos de cero confianza; Daytona con ambientes con estado vía SSH y pausa-y-restauración; Modal con startup bajo un segundo y escala a cientos de miles de sandboxes concurrentes; y Vercel con aislamiento de VM en milisegundos y emparejamiento de VPC. Las organizaciones también pueden traer su propio cliente sandbox.

JOHN

Los MCP Tunnels resuelven una superficie diferente. No dónde corre el código — sino con qué habla el agente. Un gateway ligero desplegado dentro de la red privada abre una única conexión encriptada hacia el proxy de enrutamiento de Anthropic. Sin reglas de firewall de entrada. Sin endpoints públicos. Bases de datos internas, APIs privadas, sistemas de tickets — todo se convierte en herramienta callable por el agente.

MARIA

Pero hay una distinción que equipos en verticales reguladas necesitan llamar explícitamente antes de llevar a aprobación de compliance. Aunque toda ejecución de herramientas suceda localmente, metadatos de orquestración — estado de sesión, contexto — aún fluyen a través de los sistemas de Anthropic. "Compute permanece en nuestro VPC" y "orquestración nunca deja nuestro VPC" son dos aprobaciones de compliance completamente diferentes. Confundirlas es lo que convierte un ciclo de aprobación de dos semanas en cuatro meses. Anthropic publicó cuatro arquitecturas de referencia y tres casos de estudio de producción — eso es lo que va a la reunión de compliance, no el slide de producto.

JOHN

Tres integraciones de producción ya están ejecutándose. Clay con un agente de GTM llamado Sculptor en Managed Agents y Daytona, construyendo y monitoreando workflows autónomamente. Rogo — plataforma de IA para finanzas institucionales — construyendo un agente analista en Managed Agents y Vercel Sandbox para datos proprietarios. Y Amplitude con un agente de diseño interno vivo en Cloudflare. El equipo de Amplitude llegó a una versión funcional en dos días. Otro CTO citado por Anthropic hizo el deployment inicial en menos de una semana usando Modal.

MARIA

Dicho esto — MCP Tunnels está en research preview con lenguaje explícito de "as-is". Sin SLA. Para piloto controlado con datos no regulados, seguro. Para pipeline de producción crítico en vertical regulada, no. La distinción entre preview y GA será cara para los equipos que la ignoren.

JOHN

Esa misma semana, Cloudflare completó su stack de infraestructura para agentes con seis capas nombradas y una reconstrucción profunda de Browser Run. El producto anterior corría en infraestructura compartida con Browser Isolation de Cloudflare, optimizado para sesiones humanas largas y estables. Los agentes de IA generan patrones completamente diferentes: cortos, espetados, altamente concurrentes. La migración a Containers dedicados con pools regionales de Chromium pre-calentados entregó cuatro veces más concurrencia — ciento veinte browsers simultáneos, versus treinta — y cincuenta por ciento menos latencia en acciones rápidas.

MARIA

La migración de estado de Workers KV a D1 con Queues es el patrón técnico más directamente replicable de esta semana. Workers KV tiene consistencia eventual — eso creaba race conditions cuando múltiples agentes intentaban reservar el mismo recurso en paralelo. D1 con Queues es transaccional, con batch writes soportando hasta quinientos mil containers por región. Si ejecutas agentes concurrentes contra cualquier store con consistencia eventual y estás viendo race conditions en asignación de recursos, locking transaccional en la capa de datos lo resuelve más limpiamente que locking en nivel de aplicación.

JOHN

El stack completo tiene seis capas. Compute, con Workers V8 para tareas ligeras y Sandboxes Linux completos en GA para agentes que necesitan git, bash y servidor de desarrollo. Orchestration, los Dynamic Workflows — aproximadamente trescientas líneas MIT-licensed, cada paso independientemente retryable, cada sleep hibernando sin costo acumulado para tenants ociosos. Memory en private beta, con búsqueda paralela en cinco canales y Reciprocal Rank Fusion para fusionar resultados, con perfiles de memoria compartidos entre equipos de agentes. Browser Run reconstruido con soporte para WebGL y WebMCP. Y una capa de Commerce co-diseñada con Stripe, donde agentes pueden crear cuentas de Cloudflare, registrar dominios, iniciar suscripciones, e ir a producción autónomamente, con un cap por defecto de cien dólares por mes por proveedor.

MARIA

Esa capa de Commerce necesita atención específica. Un agente que puede registrar dominios e iniciar suscripciones crea una superficie de gasto autónomo. El cap de cien dólares es un guardrail operacional, no un control de política de seguridad. A escala, con múltiples agentes ejecutándose autónomamente, eso puede generar eventos de billing inesperados rápidamente. El riesgo necesita controles en el nivel de política de autorización, no dejado en default.

JOHN

Y la diferencia de posicionamiento versus alternativas merece ser nombrada. AWS tiene un Agent Registry, pero sin capa de browser gestionada y sin equivalente a Agent Memory. Google Cloud tiene el GKE Agent Sandbox, pero como primitivo de Kubernetes, no como servicio gestionado. Cloudflare opera estos mismos primitivos internamente en sus propios productos — lo que llama "Customer Zero." Esa es una señal operacional relevante de madurez. Mientras la infraestructura de agentes madura, hay una tensión creciente del lado de desarrolladores humanos que operan estos sistemas — y necesita ser nombrada. Una firma de seguridad de API rastreó un aumento de diez veces en descubrimientos de seguridad mensuales dentro de compañías Fortune 50 entre diciembre de 2024 y junio de 2025: de mil a más de diez mil vulnerabilidades por mes. El período coincide con adopción de pico de herramientas de coding con IA. El volumen de código está superando la capacidad de revisión humana.

MARIA

El problema documentado por 404 Media no es que IA escribe código malo. Es que los mandatos de adopción están midiendo participación, no calidad. Un empleado de Amazon comenzó a inflar números de uso de IA para satisfacer métricas de adopción — sin usar el output. Un desarrollador dijo directamente al medio: "La calidad real del output no importa tanto como nuestra disposición a participar." Google reporta setenta y cinco por ciento del código nuevo generado por IA. Anthropic, noventa por ciento. El CTO de Microsoft proyecta noventa y cinco por ciento para 2030. Estos porcentajes miden la fuerza del mandato — no velocidad de entrega, no tasas de defecto, no salud de ingeniería.

JOHN

GitClear analizó doscientos once millones de líneas de código. Herramientas de coding con IA elevaron código copy-paste de ocho punto tres a doce punto tres por ciento de todos los cambios. Duplicación de bloques creció ocho veces. Actividad de refactorización cayó de veinticinco a menos de diez por ciento. Refactorización es un indicador predictivo de costo de mantenibilidad a largo plazo. Cuando cae a menos de la mitad, el código entregado hoy crea trabajo multiplicado para quien venga después.

MARIA

Y hay un ensayo clínico randomizado con cincuenta y dos ingenieros que es difícil de ignorar. Quienes usaron asistencia de IA completaron la tarea en tiempo similar al grupo de control, pero sacaron diecisiete por ciento menos en el quiz de comprensión subsecuente: cincuenta versus sesenta y siete por ciento. Tareas de debug mostraron la caída más acentuada. Velocidad permaneció estable. Comprensión cayó. Y las métricas estándar no capturan esto: métricas DORA firmes, conteo de PRs arriba, cobertura de código verde. El dashboard se ve saludable mientras el conocimiento en el equipo se deteriora.

JOHN

Un ingeniero dijo al 404 Media: "Definitivamente me está haciendo más burro."

MARIA

Otro: "Estamos construyendo un nido de ratas de deuda técnica que será imposible de desembarazar cuando estos modelos se vuelvan prohibitivamente caros."

JOHN

Y el output realizable de esta ronda de adopción, lo que podemos medir hasta ahora, son recortes de headcount, no mejora de calidad. Meta cortó ocho mil personas, diez por ciento de la fuerza laboral, citando ganancias de IA. Microsoft ofreció jubilación voluntaria a aproximadamente ciento veinticinco mil personas, siete por ciento de la fuerza laboral estadounidense. Snapchat cortó dieciséis por ciento del equipo. Headcount es el entregable. No tasa de defecto, no confiabilidad de sistema, no velocidad de lanzamiento.

MARIA

Y hay un caso específico que ilustra cómo decisiones de producto aparentemente pequeñas se propagan de forma invisible a través de producción durante semanas. Anthropic publicó el veintitrés de abril un postmortem rastreando seis semanas de quejas de degradación de Claude Code a tres cambios de producto superpuestos — ninguno de ellos una regresión de modelo. Los pesos del modelo permanecieron estables. Todo era capa de producto.

JOHN

Tres cambios, tres timelines distintas, tres cohorts de usuarios diferentes — creando la apariencia de degradación amplia e inconsistente. Primero: el cuatro de marzo, el esfuerzo de raciocinio por defecto de Claude Code fue rebajado de alto a medio para evitar que la UI pareciera congelada. Se quedó así por treinta y tres días. Segundo: el veintiséis de marzo, un bug de cache hizo que la poda de raciocinio antiguo disparara en cada virada de turno, no una vez después de inactividad. Un usuario con novecientos mil tokens en contexto quedando inactivo por una hora enfrentaba un cache miss completo en el siguiente mensaje — y cada mensaje subsecuente también se convertía en cache miss, explicando el drenaje acelerado de rate limit. Corregido el diez de abril. Tercero: el dieciséis de abril, un cap de verbosidad en el system prompt de Opus 4.7 limitó texto entre tool calls a veinticinco palabras y respuestas finales a cien palabras. Las pruebas internas no mostraron regresión. Investigación posterior encontró caída de tres por ciento en evaluaciones de coding. Revertido el veinte de abril.

MARIA

Stella Laurenzo, directora del grupo de IA de AMD, analizó seis mil ochocientos cincuenta y dos archivos de sesión de Claude Code — diecisiete mil ochocientos setenta y uno bloques de thinking, doscientos treinta y cuatro mil setecientos sesenta tool calls. Encontró que reads-per-edit colapsó de seis punto seis a dos punto cero. De research-first a edit-first. Su equipo describió esto como haciendo la herramienta inadecuada para trabajo de ingeniería complejo.

JOHN

Y la distinción que el postmortem no dejó suficientemente clara: dos de los tres cambios eran tradeoffs deliberados de producto, no bugs. El rebajamiento de esfuerzo de raciocinio y el cap de verbosidad eran decisiones conscientes. Solo el comportamiento de cache fue regresión no intencional. Tratarlos uniformemente como "degradación de calidad" generó la crítica legítima que apareció en Hacker News.

MARIA

Un comentarista lo puso así: "Cambiar el system prompt bajo los usuarios cuando publicaste benchmarks usando un system prompt más antiguo parece engañoso."

JOHN

Operadores ejecutando Claude Code en pipelines automatizados necesitan tratar cambios de system prompt y defaults de esfuerzo como variables de deployment — no como constantes. Instrumenta profundidad de raciocinio por sesión y reads-per-edit antes del siguiente rollout, no después. La última parte de esta edición son tres trabajos publicados esta semana que, juntos, entregan algo más raro que un benchmark: instrumentos de medición honestos para lo que ya está en producción. El primero mide acurácia factual por idioma y región. Un estudio de catorce días — del nueve al veintidós de febrero de 2026 — conducido por Mirac Suzgun y Emily Shen evaluó seis chatbots de producción en dos mil cien preguntas factuales derivadas de historias del mismo día del BBC News, cubriendo seis servicios regionales: EE.UU. y Canadá, árabe, Africa, hindi, ruso y turco.

MARIA

Los seis modelos: Gemini 3 Flash, Gemini 3 Pro, Grok 4, Claude 4.5 Sonnet, GPT-5 y GPT-4o mini. En múltiple opción, los mejores sistemas llegan a más de noventa por ciento de acurácia en eventos reportados hace horas. El mismo sistema en formato de respuesta abierta pierde once a trece puntos porcentuales. El promedio del cohort cae dieciséis a diecisiete puntos. Ese es el formato que usuarios reales usan — no múltiple opción.

JOHN

La brecha regional es el dato más operacionalmente relevante del estudio. Todos los modelos alcanzan su menor acurácia en hindi: setenta y nueve por ciento, versus ochenta y nueve a noventa y uno por ciento en otros idiomas. Una diferencia de diez a doce puntos. El análisis de citaciones revela el mecanismo: modelos respondiendo preguntas en hindi citan Wikipedia en inglés más que cualquier medio noticioso en hindi. Más de setenta por ciento de los errores se remontan a recuperar el documento equivocado, no a falla de raciocinio. Cuando los modelos recuperaron la fuente correcta, extrajeron respuestas con alta tasa de acierto.

MARIA

Y las queries con premisas falsas exponen la vulnerabilidad más profunda. Modelos marcando entre ochenta y ocho y noventa y seis por ciento en preguntas limpias se desplomaron a diecinueve a setenta por ciento cuando las cuestiones embutían errores factuales sutiles. Un modelo aceptó premisas fabricadas sesenta y cuatro por ciento de las veces. Y hay una paradoja de detección: el modelo con mejor capacidad de detectar premisa falsa quedó en segundo lugar en robustez adversarial. Detección y recuperación son parcialmente independientes — no puedes inferir robustez adversarial a partir de capacidad de detección.

JOHN

La conclusión práctica: alta acurácia en inglés no transfiere a otros idiomas. Un modelo mostrando noventa por ciento en evaluación en inglés podría estar ejecutándose en setenta y nueve por ciento o menos en los idiomas que tus usuarios realmente hablan. Log de citaciones a nivel de llamada es el único jeito de diagnosticar sesgo de recuperación antes de que se vuelva un problema de producción. Evaluaciones en inglés solamente subestiman la deriva regional en diez a doce puntos.

MARIA

El segundo trabajo de la semana es más teórico — pero tiene una herramienta diagnóstica práctica que equipos haciendo fine-tuning pueden usar inmediatamente. Vishal Rajput publicó en arXiv de mayo de 2026 un paper que unifica siete familias de robustez — adversarial, adaptación de dominio, invariancia fotométrica y por oclusión, generalización composicional, robustez temporal, seguridad de alinhamiento y regularización anisotrópica clásica — bajo un único principio estadístico. El principio de matching: estima la covarianza de perturbaciones de deployment que preservan el rótulo, después regulariza el Jacobiano del encoder para que su rango cubra esa covarianza.

JOHN

CORAL, IRM, penalidades de Jacobiano, metric learning, restricciones estilo RLHF — todos reempalados como estimadores diferentes del mismo objeto. No trucos independientes de robustez — variantes del mismo problema estadístico. El trabajo valida el principio en trece experimentos pre-registrados, de benchmarks clásicos de ML hasta un LLM de siete mil millones de parámetros. Doce de trece pasaron en el ordenamiento predicho: regularizador matched superó el isotrópico, que superó el mismatched. La excepción fue Office-31, un failure de eigengap nombrado antes de que el experimento corriera.

MARIA

El resultado que más importa para equipos haciendo fine-tuning: en el experimento con Qwen2.5-7B, el regularizador matched style-PMH mejoró honestidad selectiva y preservó Style TDI donde DPO estándar degradó Style TDI. Métodos de alinhamiento pueden degradar robustez de deployment de maneras que acurácia de tarea en evaluación no detecta. El trabajo introduce el Trajectory Deviation Index — un probe sin rótulo de sensibilidad de embedding para monitoreo de deployment, cuando acurácia de tarea y norma de Frobenius del Jacobiano no son suficientes. Agrega a tu harness de evaluación antes del siguiente fine-tune.

JOHN

Y cerrando en la frontera de la investigación: NVIDIA publicó el Gated DeltaNet-2, de Ali Hatamizadeh, Yejil Choi y Jan Kautz. El trabajo ataca una limitación estructural en todos los modelos de linear attention con delta-rule anteriores. El problema: Gated DeltaNet y KDA usan un único gate escalar para gobernar dos operaciones de memoria distintas — borrar contenido obsoleto en el eje de la clave y comprometer contenido nuevo en el eje del valor. Forzar una única decisión de escritura en dos preocupaciones separadas causa interferencia que embaraza asociaciones existentes cuando el sistema debería estar revisando selectivamente.

MARIA

La solución: dos gates independientes por canal. Un erase gate b_t en el eje de la clave. Un write gate w_t en el eje del valor. El modelo recupera el KDA cuando ambos colapsan al mismo escalar — es una generalización estricta, no reemplazo de arquitectura. Implementado en Triton con un algoritmo chunkwise WY y backward pass consciente de los gates, corriendo en un único H100, con throughput casi plano en relación a la longitud de secuencia.

JOHN

Los números para inferencia de longo contexto: en el benchmark RULER multi-key needle-in-a-haystack a cuatro mil tokens, Gated DeltaNet-2 recurrente marca treinta y siete punto ocho, versus veintiocho para KDA y veintisiete punto ocho para Gated DeltaNet — un salto de treinta y cinco por ciento. En S-NIAH-3 a dos mil tokens: de sesenta y tres punto dos para KDA a ochenta y nueve punto ocho. Acurácia promedio general en conjuntos de commonsense y language modeling: cincuenta y tres punto once, versus cincuenta y dos punto veintiocho para KDA. El erase gate responde por la mayor parte de la ganancia — protección selectiva en el lado de la clave impide que asociaciones existentes sean sobrescritas durante escritas no relacionadas.

MARIA

Dos limitaciones críticas para adopción. La licencia es NVIDIA Source Code License-NC — no comercial. Equipos construyendo productos de inferencia comercial necesitan negociar una licencia separada; no es open source. Y el entrenamiento fue hecho en secuencias de cuatro mil tokens. Los scores RULER son extrapolación de evaluación en contextos más largos, no validación. Antes de comprometerse con arquitectura, valida en tus propias longitudes de contexto operacionales.

JOHN

El principio que queda, independientemente de la licencia: desacopla operaciones de erase y write por canal. Compartir un gate escalar entre los dos es una pérdida de precisión mensurable — y Gated DeltaNet-2 cuantifica exactamente cuánto cuesta esa pérdida en recuperación de longo contexto. Esta semana, el costo de IA cambió de dirección — de GPU a memoria — y los agentes pasaron de demos a sistemas reales de empresas. Las métricas llegaron: para medir acurácia regional, robustez de alinhamiento, y cuánto cuesta un gate mal diseñado en contextos largos. Wire el lunes. Edition la próxima viernes. Buen trabajo.

Transcript

Recibe la señal antes del ruido.