Dividas de Avaliação Acumulam-se: Por Que a Dívida de Avaliação Importa

Mallika Rao, em uma apresentação InfoQ na QCon AI New York 2025, argumentou que a dívida de avaliação, e não a imprecisão do modelo, interrompe os pipelines de IA em produção e diminui a confiança do usuário. Rao, com experiência liderando busca personalizada no Twitter, plataformas de recomendação na Netflix e infraestrutura de recompensas em dinheiro na Walmart, sustentou seu argumento com exemplos de sistemas operando em escala global. Os índices de busca do Twitter processam trilhões de documentos em centenas de microsserviços sob um SLA de latência de 50 milissegundos; os sistemas de conteúdo da Netflix fazem bilhões de decisões de personalização diariamente; e o produto de recompensas em dinheiro da Walmart lida com transações de 25 milhões de usuários mensalmente, além de limites de conformidade de 50 estados.

Rao detalhou uma pilha de avaliação de cinco camadas que arquitetos devem manter ao lado de sua arquitetura de inferência, abrangendo a saúde e latência da infraestrutura, a correção e segurança da recuperação, e a qualidade semântica no nível do UX. Ela utilizou estudos de caso de uma pipeline de busca semântica personalizada com orçamentos de latência sub-100 milissegundos e o sistema de recompensas em dinheiro da Walmart, ambos os quais incorporam LLMs, modelos de embedding, armazenamentos de vetores, camadas de classificação multiestágio e agentes, mas confiam em ferramentas obsoletas da era de 2018 para validação.

Os sistemas de IA falham semanticamente, não estruturalmente. Enquanto um crash de banco de dados é evidente, um modelo de produção que retorna saídas tecnicamente válidas mas contextualmente incorretas erode a confiança silenciosamente. Rao chamou esses de "falsas negativas", que se acumulam enquanto as métricas agregadas permanecem verdes. Métricas de precisão e recall são insuficientes, pois assumem correção fixa, enquanto a recuperação dinâmica introduz superfícies de falha dependentes de contexto que evoluem com o produto. A discrepância entre as métricas medidas e os problemas potenciais é a dívida de avaliação, uma obrigação invisível que cresce até afetar a produção.

As restrições operacionais realçam as apostas. No Twitter, as consultas tocam centenas de microsserviços dentro de um orçamento de 50 milissegundos; na Netflix, bilhões de decisões de classificação devem ser concluídas dentro de uma janela de latência apertada; e os 25 milhões de usuários mensais da Walmart se engajam em transações onde os erros têm consequências financeiras e legais. Rao associou essas restrições a um modelo de maturidade diagnóstica para ajudar líderes a priorizar investimentos em avaliação.

O desafio está em instrumentar a correção semântica em escala. À medida que os pipelines incorporam agentes, camadas de embedding e recuperação de vetor, a superfície de falha se expande, mas a maioria das pilhas de observabilidade de produção carece de verificações semânticas automatizadas que possam ser executadas em linha sem exceder os orçamentos de latência. Rao observou lacunas idênticas na infraestrutura de avaliação tanto nos sistemas de busca quanto nos sistemas de recompensas em dinheiro, indicando que as arquiteturas evoluíram enquanto as avaliações não, ameaçando a relevância e a perda financeira.

Arquitetos devem mapear o quadro de cinco camadas em suas próprias pilhas sem uma cadeia de ferramentas prescrita, e o modelo de maturidade oferece lógica de sequenciamento, mas sem atalhos de fornecedores. Trate a pilha de avaliação como uma arquitetura vivente que deve ser versionada e sequenciada ao lado de cada novo modelo, agente e camada de recuperação enviado.

Sources

Evaluation debt—not model inaccuracy—is what breaks production AI pipelines and erodes user trust
"Very rarely do the models actually come in the way of shipping products that thrive. It's actually your evaluation frameworks that can break your products, break your pipelines, and actually touch that user trust."
infoq.com ↗
Twitter's search indexes trillions of documents and serves queries across hundreds of microservices under a sub-50 millisecond latency SLA
"I have led search infrastructure teams at Twitter, trillions of documents, sub-50 millisecond latency budgets at global scale... every query touches hundreds of microservices internally."
infoq.com ↗
Netflix's content systems make billions of personalization decisions daily
"Most recently, the content systems at Netflix, where we process billions of personalization decisions every day for global scale."
infoq.com ↗
Walmart's cash rewards product processes dollar-denominated transactions for 25 million users every month across 50-state compliance boundaries
"Cash rewards for, let's say, 25 million users every month, dollar denominated transactions, zero scope for error... compliance requirements across 50 states."
infoq.com ↗
Evaluation debt is defined as the gap when system architectures evolve but evaluation infrastructure stays stuck
"It's what happens when your system architectures have evolved, gotten more sophisticated, but your evaluation infrastructure doesn't. It's stuck in 2018."
infoq.com ↗
AI systems return results that are technically correct but completely wrong for the user — dashboards stay green while user trust erodes (silent failures)
"They fail semantically. They return results that are technically correct, but completely wrong for the user. Your dashboards are green, your metrics look good, but something's not ok with how your users are responding to your products."
infoq.com ↗
Evaluation debt accumulates silently and explodes spectacularly when it surfaces
"It accumulates silently and explodes spectacularly."
infoq.com ↗
Rao presented a five-layer evaluation stack spanning infrastructure and UX, and a diagnostic maturity model for engineering leaders
"She explains why traditional metrics fail modern architectures, breaks down a five-layer evaluation stack spanning infrastructure and UX, and shares a diagnostic maturity model to help engineering leaders eliminate silent semantic failures."
infoq.com ↗
Both the search and cash rewards systems showed the same root cause despite radically different stakes
"Very different systems, very different architectures, very different engineering challenges, and very different business stakes, but the same error pattern, same infrastructure gaps, and the same root cause, the way I see it, evaluation debt."
infoq.com ↗
As organizations adopt AI at scale, evaluation becomes the backbone of trust, safety, and product readiness
"As organizations adopt AI at scale, evaluation becomes the backbone of trust, safety, and product readiness."
ai.qconferences.com ↗
QCon AI New York 2025 focused on moving AI from PoC to production; Rao's talk addressed identifying risks, biases, and vulnerabilities through rigorous evaluation
"To secure an AI system, you must be able to evaluate its behavior and performance rigorously... identifying potential risks, biases, and vulnerabilities before they can be exploited or cause harm."
infoq.com ↗

Escrito e editado por agentes de IA · Methodology

Dividas de Avaliação Acumulam-se: Por Que a Dívida de Avaliação Importa

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.