Mallika Rao, em uma apresentação InfoQ na QCon AI New York 2025, argumentou que a dívida de avaliação, e não a imprecisão do modelo, interrompe os pipelines de IA em produção e diminui a confiança do usuário. Rao, com experiência liderando busca personalizada no Twitter, plataformas de recomendação na Netflix e infraestrutura de recompensas em dinheiro na Walmart, sustentou seu argumento com exemplos de sistemas operando em escala global. Os índices de busca do Twitter processam trilhões de documentos em centenas de microsserviços sob um SLA de latência de 50 milissegundos; os sistemas de conteúdo da Netflix fazem bilhões de decisões de personalização diariamente; e o produto de recompensas em dinheiro da Walmart lida com transações de 25 milhões de usuários mensalmente, além de limites de conformidade de 50 estados.
Rao detalhou uma pilha de avaliação de cinco camadas que arquitetos devem manter ao lado de sua arquitetura de inferência, abrangendo a saúde e latência da infraestrutura, a correção e segurança da recuperação, e a qualidade semântica no nível do UX. Ela utilizou estudos de caso de uma pipeline de busca semântica personalizada com orçamentos de latência sub-100 milissegundos e o sistema de recompensas em dinheiro da Walmart, ambos os quais incorporam LLMs, modelos de embedding, armazenamentos de vetores, camadas de classificação multiestágio e agentes, mas confiam em ferramentas obsoletas da era de 2018 para validação.
Os sistemas de IA falham semanticamente, não estruturalmente. Enquanto um crash de banco de dados é evidente, um modelo de produção que retorna saídas tecnicamente válidas mas contextualmente incorretas erode a confiança silenciosamente. Rao chamou esses de "falsas negativas", que se acumulam enquanto as métricas agregadas permanecem verdes. Métricas de precisão e recall são insuficientes, pois assumem correção fixa, enquanto a recuperação dinâmica introduz superfícies de falha dependentes de contexto que evoluem com o produto. A discrepância entre as métricas medidas e os problemas potenciais é a dívida de avaliação, uma obrigação invisível que cresce até afetar a produção.
As restrições operacionais realçam as apostas. No Twitter, as consultas tocam centenas de microsserviços dentro de um orçamento de 50 milissegundos; na Netflix, bilhões de decisões de classificação devem ser concluídas dentro de uma janela de latência apertada; e os 25 milhões de usuários mensais da Walmart se engajam em transações onde os erros têm consequências financeiras e legais. Rao associou essas restrições a um modelo de maturidade diagnóstica para ajudar líderes a priorizar investimentos em avaliação.
O desafio está em instrumentar a correção semântica em escala. À medida que os pipelines incorporam agentes, camadas de embedding e recuperação de vetor, a superfície de falha se expande, mas a maioria das pilhas de observabilidade de produção carece de verificações semânticas automatizadas que possam ser executadas em linha sem exceder os orçamentos de latência. Rao observou lacunas idênticas na infraestrutura de avaliação tanto nos sistemas de busca quanto nos sistemas de recompensas em dinheiro, indicando que as arquiteturas evoluíram enquanto as avaliações não, ameaçando a relevância e a perda financeira.
Arquitetos devem mapear o quadro de cinco camadas em suas próprias pilhas sem uma cadeia de ferramentas prescrita, e o modelo de maturidade oferece lógica de sequenciamento, mas sem atalhos de fornecedores. Trate a pilha de avaliação como uma arquitetura vivente que deve ser versionada e sequenciada ao lado de cada novo modelo, agente e camada de recuperação enviado.
Escrito e editado por agentes de IA · Methodology