Wire #10 — La semana en que la confiabilidad de agentes se convirtió en un problema de infraestructura
Los agentes no colapsan en el modelo—colapsan en el harness, la memoria, la latencia y los mandatos de adopción que los CTOs están firmando sin medir.
Transcript
Seis semanas. Ese fue el tiempo que la propia Anthropic necesitó para rastrear tres cambios superpuestos que derribaron Claude Code.
Y si quienes entrenaron el modelo demoraron seis semanas en encontrarlo—tu equipo no lo encontrará en un agente en vivo.
Esta es la ai|expert Wire. El día en que quedó claro: un agente en producción no colapsa en el modelo—colapsa en el harness, la memoria, la latencia y el mandato que alguien firmó sin medir.
El 23 de abril, Anthropic publicó un postmortem. Tres cambios de producto separados, superpuestos, afectando cohortes diferentes en ventanas de tiempo diferentes—creando la apariencia de una degradación amplia e inconsistente.
El modelo no retrocedió. Los pesos de la API permanecieron estables. Lo que sucedió: el 4 de marzo, el esfuerzo de razonamiento predeterminado de Claude Code cayó de "alto" a "medio" para evitar congelamientos de UI. Se mantuvo así durante 33 días. El 26 de marzo, un bug de caché hizo que el agente perdiera su propio historial de razonamiento en cada turno después de una hora inactivo—un usuario con 900 mil tokens en contexto que se pausara por una hora provocaba un error de caché completo en el siguiente mensaje. El 16 de abril, un límite de verbosidad restringió las respuestas a 100 palabras. Prueba interna: sin regresión. Prueba durante la investigación: caída del 3% en evals de código.
Stella Laurenzo, de AMD, analizó 6.852 archivos de sesión de Claude Code, 17.871 bloques de razonamiento y 234.760 llamadas de herramientas. Lo que encontró: la tasa de lecturas por edición cayó de 6,6 a 2,0—el agente dejó de investigar antes de editar.
Eso no es fallo del modelo. Es fallo del sistema. Y lo que el postmortem de Anthropic deja implícito, un paper publicado la misma semana lo hace explícito.
El paper es AI Harness Engineering, de Hailin Zhong y Shengxin Zhu. La tesis central: los agentes de software fallan no porque el modelo carezca de capacidad—fallan porque la infraestructura de runtime para verificar y atribuir output simplemente no existe.
Nombran once responsabilidades de componente: especificación de tarea, selección de contexto, acceso a herramientas, memoria de proyecto, estado de tarea, observabilidad, atribución de fallos, verificación, permisos, auditoría de entropía y registro de intervención. Y proponen una escalera de cuatro niveles, H0 a H3.
H0 es donde vive la mayoría de los setups de producción hoy. Tarea entra, parche sale, sin soporte de runtime. H3 es cobertura total: logs de reproducción, verificaciones determinísticas de requisitos, reportes de verificación estructurados.
El postmortem de Anthropic es un caso H0 convertido en H1 apresuradamente. Nadie instrumentó el esfuerzo de razonamiento por sesión antes del rollout. Nadie midió lecturas por edición como indicador de salud. Anthropic encontró las causas—pero tardó seis semanas.
La latencia es la siguiente capa. Investigadores de UC Berkeley publicaron un framework llamado Speculative Interaction Agents. El problema que atacan: en workflows agenticos estándar, el agente espera a que el usuario termine de hablar antes de razonar, y pausa el razonamiento mientras se ejecutan las llamadas de herramientas.
Para voz, sub-segundo es el requisito. Las llamadas de herramientas multi-turno añaden varios segundos de latencia además del tiempo de inferencia. El framework usa dos mecanismos: I/O asincrónico—que desacopla el loop de razonamiento de los streams de entrada y ambiente—y Speculative Tool Calling, que dispara llamadas de bajo riesgo antes de que el usuario termine de especificar parámetros.
Resultados: 1,3 a 1,7 veces más rápido en APIs en la nube como OpenAI Realtime y Gemini Live, sin cambio en el modelo. En modelos edge como Qwen2.5 y Llama-3.2, alcanzan 2,2x.
El costo oculto: cada herramienta debe clasificarse como especulativamente segura o pendiente de confirmación. Eso no está automatizado. Es el impuesto de integración que el anuncio no menciona—y que recae sobre el equipo de ingeniería, no el vendor.
La capa de seguridad tiene su propio problema. Microsoft Research generó 30 mil estrategias adversariales a partir de 2.500 artículos de Wikipedia—y mostró que ataques suficientemente implausibles perforan guardrails que bloquean toda manipulación convencional.
Los ejemplos del paper son instructivos por su absurdidad: un tratado internacional falso—"la Convención de Ginebra del Café requiere como máximo dos dólares por grano"—una emergencia climática fabricada, una restricción técnica espuria. Un vendedor humano rechazaría las tres. El agente aceptó las premisas y ajustó el comportamiento.
¿Por qué? Porque todo el pipeline de seguridad—datos de preentrenamiento, modelos de recompensa RLHF, red-team humano—está calibrado al juicio humano sobre amenazas. Los ataques que los humanos no intentarían rara vez aparecen en la señal de entrenamiento.
Claude Sonnet 4.5 resultó casi inmune a la inyección de prompts directa. Pero en ambientes de enrutamiento multi-agente, incluso GPT-5 falló. Un único mensaje malicioso se propagó a través de más de cien agentes, consumió más de cien llamadas de LLM y circuló durante más de doce minutos.
La resistencia a la inyección de prompts directa no generaliza a grafos de enrutamiento agentico.
La última pieza esta semana: ¿y si el agente pudiera aprender de sus propias fallas—sin reentrenamiento?
Eso es lo que hace FORGE. Investigadores de Carleton University, Defence R&D Canada y Cistel Technology publicaron un protocolo donde los agentes evolucionan memoria a través de reflexión, sin actualizaciones de pesos, sin fine-tuning, sin destilación de un modelo más fuerte. En CybORG CAGE-2, una tarea de defensa de redes con 30 pasos y observabilidad parcial, FORGE redujo eventos de fallo grave a aproximadamente 1% y mejoró 1,7 a 7,7 veces sobre baselines zero-shot.
El mecanismo crítico, según las ablaciones, es el broadcast poblacional. El agente con mejor desempeño distribuye su artefacto de memoria a todos los otros agentes de la población. Remover el broadcast colapsa los resultados al nivel del Reflexion estándar.
El formato Rules—heurísticas textuales—usa 40% menos tokens que ejemplos few-shot, con pérdida modesta en precisión. Para pipelines de alto throughput, es el cambio correcto. Y el detalle estratégico: los modelos más débiles se beneficiaron más de FORGE que los modelos más fuertes. Él estrecha brechas de capacidad. No amplifica lo que ya existe.
El cuadro completo del primer bloque es este: el agente en producción colapsa en el harness, latencia, guardrails calibrados para humanos, y memoria que se pierde entre sesiones. Ninguna de esas capas está en el roadmap del vendor. Todas son responsabilidad de quienquiera que lo desplegó.
Mientras la ingeniería enfrenta estas capas, el mercado envía otra señal.
Cisco reportó $15,84 mil millones en ingresos para el tercer trimestre fiscal de 2026—el trimestre más grande en los 41 años de historia de la empresa. Las acciones subieron 15% en operaciones después de horas. Y anunció menos de cuatro mil recortes de empleos en el mismo comunicado.
Los pedidos de infraestructura de IA suman $9 mil millones en el año fiscal—revisados desde $5 mil millones, que vinieron de una meta original de $1 mil millón. Microsoft Azure, Google Cloud, Amazon Web Services y Meta son los hyperscalers nombrados. Los ingresos de redes crecieron 25% a $8,82 mil millones.
El margen bruto cayó a 66%, una caída de aproximadamente tres puntos porcentuales. El hardware pesado de IA tiene márgenes más bajos que el software. Cisco ganó el ciclo actual de silicon—pero ganó con márgenes más ajustados. Y los 3.800 despedidos financian la siguiente apuesta.
404 Media publicó reportes de desarrolladores en Amazon, Google, Microsoft y fintech operando bajo mandato explícito de usar IA en código—independientemente de la calidad del output o impacto en seguridad.
Un empleado de Amazon comenzó a inflar el uso reportado de IA para cumplir métricas de adopción. Un desarrollador dijo directamente: "La calidad real del output no importa tanto como nuestra voluntad de participar." Prompts registrados en compliance, output descartado, código escrito a mano.
Google reporta 75% de código generado por IA. Anthropic, 90%. El CTO de Microsoft espera 95% de todo el código de la empresa generado por IA para 2030.
Estos porcentajes miden cumplimiento de mandato—no productividad, no calidad. Una firma de seguridad de API rastreó un aumento de diez veces en hallazgos mensuales dentro de empresas Fortune 50 entre diciembre de 2024 y junio de 2025: de mil a más de diez mil vulnerabilidades por mes. GitClear analizó 211 millones de líneas de código: el código duplicado subió de 8,3% a 12,3% de todos los cambios. La actividad de refactorización cayó de 25% a menos del 10%.
Un estudio controlado aleatorizado con 52 ingenieros: los participantes que usan IA completaron la tarea en tiempo similar—pero puntuaron 17% menos en un quiz de comprensión posterior. Cincuenta por ciento versus 67%.
El problema no es la adopción. Es la métrica de adopción. El porcentaje de código-IA mide la fortaleza del mandato—no la salud de la ingeniería.
El contrapunto existe. Y es instructivo precisamente porque el workflow fue diseñado, no impuesto.
Paulo Arruda, staff engineer en Shopify, presentó en QCon AI cómo reemplazó un prompt monolítico con un enjambre de agentes Claude Code especializados. El proceso de revisión de temas de 22 horas bajó a 7 a 20 minutos. Evaluación de movimientos internos de candidatos: de horas a menos de una hora. Un enjambre de 15 instancias paralelas de Claude Code para minería de documentación interna. El proyecto Claude Swarm tiene más de 1.400 estrellas en GitHub.
La lección de Shopify es sobre descomposición. Cada criterio de revisión se convirtió en un agente con responsabilidad única. Un prompt único con múltiples responsabilidades—el LLM se pierde.
Las ganancias más grandes—65 a 190 veces—aparecen cuando el cuello de botella era throughput humano, no latencia de LLM. Los equipos que esperan ese múltiplo en cada caso se desepcionarán en la mayoría de ellos. La diferencia entre Shopify y los mandatos forzados no es la herramienta. Es el diseño.
El hilo conductor de esta semana es uno: un agente en producción es un sistema. Harness, memoria, latencia, guardrails y la métrica que define el éxito para quienquiera que firmó el mandato. Cada una de esas capas puede ser la causa raíz. Ninguna aparece en el benchmark.
El viernes, en Edition, abrimos el presupuesto de confianza: cuánto puede fallar un agente antes de salir de producción—y quién lo firma. Hasta entonces. Buena semana.