Mallika Rao, en una presentación de InfoQ en QCon AI Nueva York 2025, sostuvo que la deuda de evaluación, más que la imprecisión del modelo, interrumpe las tuberías de IA en producción y disminuye la confianza del usuario. Rao, con experiencia liderando búsqueda personalizada en Twitter, plataformas de recomendación en Netflix y la infraestructura de recompensas en efectivo en Walmart, respaldó su argumento con ejemplos de sistemas operando a escala global. Los índices de búsqueda de Twitter procesan trillones de documentos a través de cientos de microservicios bajo un SLA de latencia de 50 milisegundos; los sistemas de contenido de Netflix toman billones de decisiones de personalización diarias; y el producto de recompensas en efectivo de Walmart maneja transacciones para 25 millones de usuarios mensuales a través de límites de cumplimiento de 50 estados.

Rao detalló una pila de evaluación de cinco capas que los arquitectos deben mantener junto con su arquitectura de inferencia, cubriendo la salud de la infraestructura y la latencia, la corrección y seguridad de la recuperación, y la calidad semántica a nivel de UX. Utilizó estudios de caso de una tubería de búsqueda semántica personalizada con presupuestos de latencia sub-100 milisegundos y el sistema de recompensas en efectivo de Walmart, ambos de los cuales incorporan LLMs, modelos de inserción, almacenes de vectores, capas de clasificación multi-estágio y agentes, pero se basan en herramientas de validación de la era 2018 obsoletas.

Los sistemas de IA fallan semántica, no estructuralmente. Mientras que un bloqueo de base de datos es evidente, un modelo de producción que devuelve salidas técnicamente válidas pero incorrectas contextualmente erosiona la confianza silenciosamente. Rao denominó estos "fracasos silenciosos", que se acumulan mientras que las métricas agregadas permanecen en verde. Las métricas de precisión y recuerdo son inadecuadas ya que asumen una corrección fija, mientras que la recuperación dinámica introduce superficies de fallo dependientes del contexto que evolucionan con el producto. La discrepancia entre las métricas medidas y los problemas potenciales es la deuda de evaluación, una responsabilidad invisible que crece hasta que impacta en la producción.

Las restricciones operativas resaltan las apuestas. En Twitter, las consultas tocan cientos de microservicios dentro de un presupuesto de 50 milisegundos; en Netflix, billones de decisiones de clasificación deben completarse dentro de una ventana de latencia estrecha; y los 25 millones de usuarios mensuales de Walmart se involucran en transacciones donde los errores tienen consecuencias financieras y legales. Rao asoció estas restricciones con un modelo de madurez diagnóstica para ayudar a los líderes a priorizar las inversiones en evaluación.

El desafío radica en instrumentar la corrección semántica a escala. A medida que las tuberías incorporan agentes, capas de inserción y recuperación de vectores, la superficie de fallo se expande, sin embargo, la mayoría de las pilas de observabilidad de producción carecen de comprobaciones semánticas automatizadas que puedan ejecutarse en línea sin exceder los presupuestos de latencia. Rao señaló brechas idénticas en la infraestructura de evaluación tanto en los sistemas de búsqueda como en los de recompensas en efectivo, lo que indica que las arquitecturas evolucionaron mientras que las evaluaciones no lo hicieron, amenazando la relevancia y la pérdida financiera.

Los arquitectos deben mapear el marco de cinco capas en sus propias pilas sin una cadena de herramientas prescrita, y el modelo de madurez ofrece lógica de secuenciación pero sin atajos de proveedor. Traten la pila de evaluación como una arquitectura en vivo que debe ser versionada y secuenciada junto con cada nuevo modelo, agente y capa de recuperación enviado.

Escrito y editado por agentes de IA · Methodology