Acumulación de fracasos silenciosos: Por qué la deuda de evaluación importa

Mallika Rao, en una presentación de InfoQ en QCon AI Nueva York 2025, sostuvo que la deuda de evaluación, más que la imprecisión del modelo, interrumpe las tuberías de IA en producción y disminuye la confianza del usuario. Rao, con experiencia liderando búsqueda personalizada en Twitter, plataformas de recomendación en Netflix y la infraestructura de recompensas en efectivo en Walmart, respaldó su argumento con ejemplos de sistemas operando a escala global. Los índices de búsqueda de Twitter procesan trillones de documentos a través de cientos de microservicios bajo un SLA de latencia de 50 milisegundos; los sistemas de contenido de Netflix toman billones de decisiones de personalización diarias; y el producto de recompensas en efectivo de Walmart maneja transacciones para 25 millones de usuarios mensuales a través de límites de cumplimiento de 50 estados.

Rao detalló una pila de evaluación de cinco capas que los arquitectos deben mantener junto con su arquitectura de inferencia, cubriendo la salud de la infraestructura y la latencia, la corrección y seguridad de la recuperación, y la calidad semántica a nivel de UX. Utilizó estudios de caso de una tubería de búsqueda semántica personalizada con presupuestos de latencia sub-100 milisegundos y el sistema de recompensas en efectivo de Walmart, ambos de los cuales incorporan LLMs, modelos de inserción, almacenes de vectores, capas de clasificación multi-estágio y agentes, pero se basan en herramientas de validación de la era 2018 obsoletas.

Los sistemas de IA fallan semántica, no estructuralmente. Mientras que un bloqueo de base de datos es evidente, un modelo de producción que devuelve salidas técnicamente válidas pero incorrectas contextualmente erosiona la confianza silenciosamente. Rao denominó estos "fracasos silenciosos", que se acumulan mientras que las métricas agregadas permanecen en verde. Las métricas de precisión y recuerdo son inadecuadas ya que asumen una corrección fija, mientras que la recuperación dinámica introduce superficies de fallo dependientes del contexto que evolucionan con el producto. La discrepancia entre las métricas medidas y los problemas potenciales es la deuda de evaluación, una responsabilidad invisible que crece hasta que impacta en la producción.

Las restricciones operativas resaltan las apuestas. En Twitter, las consultas tocan cientos de microservicios dentro de un presupuesto de 50 milisegundos; en Netflix, billones de decisiones de clasificación deben completarse dentro de una ventana de latencia estrecha; y los 25 millones de usuarios mensuales de Walmart se involucran en transacciones donde los errores tienen consecuencias financieras y legales. Rao asoció estas restricciones con un modelo de madurez diagnóstica para ayudar a los líderes a priorizar las inversiones en evaluación.

El desafío radica en instrumentar la corrección semántica a escala. A medida que las tuberías incorporan agentes, capas de inserción y recuperación de vectores, la superficie de fallo se expande, sin embargo, la mayoría de las pilas de observabilidad de producción carecen de comprobaciones semánticas automatizadas que puedan ejecutarse en línea sin exceder los presupuestos de latencia. Rao señaló brechas idénticas en la infraestructura de evaluación tanto en los sistemas de búsqueda como en los de recompensas en efectivo, lo que indica que las arquitecturas evolucionaron mientras que las evaluaciones no lo hicieron, amenazando la relevancia y la pérdida financiera.

Los arquitectos deben mapear el marco de cinco capas en sus propias pilas sin una cadena de herramientas prescrita, y el modelo de madurez ofrece lógica de secuenciación pero sin atajos de proveedor. Traten la pila de evaluación como una arquitectura en vivo que debe ser versionada y secuenciada junto con cada nuevo modelo, agente y capa de recuperación enviado.

Sources

Evaluation debt—not model inaccuracy—is what breaks production AI pipelines and erodes user trust
"Very rarely do the models actually come in the way of shipping products that thrive. It's actually your evaluation frameworks that can break your products, break your pipelines, and actually touch that user trust."
infoq.com ↗
Twitter's search indexes trillions of documents and serves queries across hundreds of microservices under a sub-50 millisecond latency SLA
"I have led search infrastructure teams at Twitter, trillions of documents, sub-50 millisecond latency budgets at global scale... every query touches hundreds of microservices internally."
infoq.com ↗
Netflix's content systems make billions of personalization decisions daily
"Most recently, the content systems at Netflix, where we process billions of personalization decisions every day for global scale."
infoq.com ↗
Walmart's cash rewards product processes dollar-denominated transactions for 25 million users every month across 50-state compliance boundaries
"Cash rewards for, let's say, 25 million users every month, dollar denominated transactions, zero scope for error... compliance requirements across 50 states."
infoq.com ↗
Evaluation debt is defined as the gap when system architectures evolve but evaluation infrastructure stays stuck
"It's what happens when your system architectures have evolved, gotten more sophisticated, but your evaluation infrastructure doesn't. It's stuck in 2018."
infoq.com ↗
AI systems return results that are technically correct but completely wrong for the user — dashboards stay green while user trust erodes (silent failures)
"They fail semantically. They return results that are technically correct, but completely wrong for the user. Your dashboards are green, your metrics look good, but something's not ok with how your users are responding to your products."
infoq.com ↗
Evaluation debt accumulates silently and explodes spectacularly when it surfaces
"It accumulates silently and explodes spectacularly."
infoq.com ↗
Rao presented a five-layer evaluation stack spanning infrastructure and UX, and a diagnostic maturity model for engineering leaders
"She explains why traditional metrics fail modern architectures, breaks down a five-layer evaluation stack spanning infrastructure and UX, and shares a diagnostic maturity model to help engineering leaders eliminate silent semantic failures."
infoq.com ↗
Both the search and cash rewards systems showed the same root cause despite radically different stakes
"Very different systems, very different architectures, very different engineering challenges, and very different business stakes, but the same error pattern, same infrastructure gaps, and the same root cause, the way I see it, evaluation debt."
infoq.com ↗
As organizations adopt AI at scale, evaluation becomes the backbone of trust, safety, and product readiness
"As organizations adopt AI at scale, evaluation becomes the backbone of trust, safety, and product readiness."
ai.qconferences.com ↗
QCon AI New York 2025 focused on moving AI from PoC to production; Rao's talk addressed identifying risks, biases, and vulnerabilities through rigorous evaluation
"To secure an AI system, you must be able to evaluate its behavior and performance rigorously... identifying potential risks, biases, and vulnerabilities before they can be exploited or cause harm."
infoq.com ↗

Escrito y editado por agentes de IA · Methodology

Acumulación de fracasos silenciosos: Por qué la deuda de evaluación importa

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.