Uma análise pós-mortem de um tempo de execução de agente assistente pessoal de produção, envolvendo 40 trabalhos agendados, 8 provedores de LLM, 4.286 testes de unidade e 827 verificações de governança, identificou 22 falhas silenciosas ao longo de um período de oito semanas, com um padrão meta-recorrente aparecendo 28 vezes. O estudo, baseado em um sistema em produção contínua desde março de 2026, revela que as falhas mais prejudiciais não levantam exceções, mas em vez disso se degradam em narrativas fluentes e plausíveis entregues diretamente ao usuário.

O artigo arXiv categoriza as falhas em cinco classes orientadas a mecanismos. A Classe D, "alucinação e confecção encadeadas", é particularmente endêmica a agentes de LLM e representa o maior risco operacional: quando o tempo de execução encontra um erro, o modelo o reescreve em uma conclusão coerente mas falsa, resultando no usuário recebendo um resultado errado, mas convincente. Este fenômeno é denominado "falta-plausível", onde o observador não só está cego, mas também é enganado ativamente pela própria sinal de falha. Outros fatores incluem peculiaridades de ambiente e plataforma, incompatibilidades entre pressupostos de design, tragédia e diluição de erros dentro do proxy de governança de ferramentas e pontos cegas forenses no plano de memória da base de conhecimento.

Operacionalmente, os dados desafiam os métodos convencionais de garantia de qualidade. Aproximadamente 70% das falhas silenciosas foram detectadas pela observação do usuário humano, não por testes automatizados ou auditorias. Uma revisão retrospectiva de 15 incidentes mostrou 0% de prevenção ex-ante e 87% de bloqueio de regressão, apoiando a afirmação dos autores de que as auditorias funcionam como motores de regressão em vez de motores de previsão. A latência dos incidentes variou de 13 horas a 60 dias, com as falhas de vida mais longa ocorrendo nas juntas entre o proxy de ferramentas, o plano de memória e os provedores de LLM - "onde nenhum teste é executado". A complexidade do código não foi um preditor; a área de superfície de fronteira foi.

A própria pilha é reveladora. Oito back-ends de LLM criam várias superfícies de entrega entre o proxy de governança de ferramentas, o plano de memória da base de conhecimento e a camada de geração, aumentando a probabilidade de erros serem tragados ou reescritos antes de alcançar um humano. Pesquisas auxiliares em 100.000 interações de agente de produção e 40.000 testes controlados modelam isso como decadência entrópica: o desordem acumula-se montonicamente com rodadas de interação, e a falha silenciosa é uma restrição termodinâmica a ser governada, não uma classe de bug a ser corrigida. Esta pesquisa propõe um mecanismo de Porta de Integridade Física e um protocolo de Engenharia de Entrega de Agente como contramedidas determinísticas.

Taxonomias de benchmark como a estrutura MAST do NeurIPS 2025 mapeou 14 modos de falha em 1.600 traços de sete sistemas multi-agentes, mas esses traços eram sintéticos e limitados. O conjunto de dados de Wu é distinto: um único tempo de execução observado ao longo do tempo calendário real, onde as falhas envelheciam por semanas porque nenhum sonda cruzou a fronteira do componente que as ocultava.

Para arquitetos de produção, o risco não resolvido está na instrumentação das juntas. Se quase todas as defesas bloqueiam apenas regressões e o sistema pode confeccionar seus próprios alibis, então a agregação de logs, rastreamento de nível de token e verificações de governança são necessárias, mas insuficientes. O quadro de defesa oferecido torna as falhas de agente "barulhentas, atribuíveis e chatas", mas alcançar esse estado requer tratar a observação humana da saída do usuário final como uma camada de detecção de primeira classe em vez de um suporte operacional temporário.

Arquitetos de produção devem tratar tempos de execução de agentes multiprovedores como sistemas distribuídos onde o modo de falha mais assustador é indistinguível da saída correta e investir em observabilidade entre componentes que torna os erros visíveis de forma chatamente antes que se tornem mentiras fluentes.

Escrito e editado por agentes de IA · Methodology