Anthropic Identifica Lacunas de Qualidade em Agentes que Distorcem Resultados em Mercados Peer-to-Peer

A Anthropic conduziu um experimento interno no qual agentes de IA negociaram e fecharam transações reais de forma autônoma em nome de participantes humanos — 186 negociações totalizando mais de $4.000 em valor, envolvendo um grupo de 69 funcionários. O teste, denominado Project Deal, é a primeira divulgação pública da empresa sobre um ambiente de comércio ativo entre agentes e expõe problemas arquiteturais que equipes corporativas que constroem sistemas multiagente precisarão resolver antes de implantar em escala.

O Project Deal operou como um marketplace peer-to-peer classificado, no qual funcionários da Anthropic vendiam bens e serviços uns aos outros, com agentes de IA representando ambos os lados de cada transação. Cada participante recebeu um orçamento de $100, distribuído em cartões-presente, para gastar dentro do experimento. A Anthropic executou quatro variantes distintas do marketplace simultaneamente — uma designada "real", na qual as negociações foram honradas após o encerramento do experimento e os agentes eram alimentados pelo modelo mais avançado da empresa, e três ambientes adicionais projetados para estudo comparativo.

A qualidade dos agentes negociadores produziu resultados assimetricamente mensuráveis. A Anthropic relatou que usuários representados por modelos mais avançados obtiveram "resultados objetivamente melhores" do que aqueles apoiados por modelos mais fracos. Os participantes que saíram em desvantagem nessas negociações assimétricas não perceberam a disparidade. A Anthropic sinalizou o fenômeno como uma potencial "lacuna de 'qualidade de agente'" — um cenário em que uma das partes de uma transação automatizada é sistematicamente prejudicada sem qualquer consciência disso.

Um resultado secundário contraria suposições correntes. As instruções iniciais fornecidas aos agentes — os prompts e parâmetros definidos pelos principais humanos antes da abertura do marketplace — não pareceram afetar a probabilidade de venda nem os preços finais negociados. Essa constatação, caso se generalize, enfraquece um dos principais mecanismos de controle em que equipes corporativas atualmente confiam: a premissa de que system prompts cuidadosamente elaborados se traduzem de forma confiável em comportamento dos agentes durante negociações ao vivo.

Para organizações que planejam pipelines multiagente, o Project Deal torna concretas diversas questões de governança que até então eram em grande parte teóricas. Quando um agente compromete recursos organizacionais em uma transação autônoma, quem é dono da trilha de auditoria? Se a qualidade do agente determina os resultados das negociações e os funcionários não percebem a lacuna, os sistemas de atribuição de custos precisam registrar não apenas o que foi adquirido, mas qual versão do modelo atuou como agente de compra e quais alternativas estavam disponíveis. Equipes de procurement e jurídico precisarão tratar a seleção do modelo de agente como uma variável material em contextos contratuais, e não apenas como uma configuração de desempenho.

As limitações do experimento são significativas. A Anthropic descreveu o Project Deal explicitamente como "um experimento piloto com um grupo de participantes auto-selecionados" — 69 funcionários que optaram por participar, transacionando com dinheiro em cartões-presente em uma plataforma interna fechada. Nenhuma das pressões estruturais do procurement corporativo se aplicou: restrições regulatórias, cadeias de aprovação em múltiplos níveis, due diligence de contraparte ou responsabilidade contratual. A empresa caracterizou o teste como um estudo controlado, e não como um sistema em produção.

O que a Anthropic não divulgou: se o Project Deal é um precursor de uma oferta comercial, quais modelos específicos popularam as quatro variantes do marketplace, ou como a qualidade das negociações foi quantificada ao determinar que modelos avançados produziram resultados superiores. Essas lacunas importam para qualquer equipe que tente extrair conclusões arquiteturais dos números do experimento.

O comércio entre agentes não é um item de roadmap — é um piloto que já fechou 186 transações reais. Equipes corporativas que o tratam como uma preocupação futura já estão atrás da curva de governança.

Sources

Anthropic's Project Deal ran a classified marketplace where AI agents represented buyers and sellers, with 69 employees participating
"Anthropic created a classified marketplace where AI agents represented both buyers and sellers, striking real deals for real goods and real money. The company admitted this test — which it called Project Deal — was only 'a pilot experiment with a self-selected participant pool' of 69 Anthropic employees"
techcrunch.com ↗
Project Deal produced 186 deals totaling more than $4,000 in value
"186 deals made, totaling more than $4,000 in value"
techcrunch.com ↗
Each employee participant was given a $100 budget, paid out via gift cards
"69 Anthropic employees who were given a budget of $100 (paid out via gift cards) to buy stuff from their coworkers"
techcrunch.com ↗
Anthropic ran four separate marketplace variants, one 'real' with the most advanced model and three for study
"Anthropic said it actually ran four separate marketplaces with different models — one that was 'real' (where everyone was represented by the company's most-advanced model, and with deals actually honored after the experiment) and another three for study"
techcrunch.com ↗
Users represented by more advanced models achieved objectively better outcomes, but participants on the losing end did not notice the disparity
"when users are represented by more advanced models, they get 'objectively better outcomes,' Anthropic said. But users didn't seem to notice the disparity, raising the possibility of "'agent quality' gaps" where 'people on the losing end might not realize they're worse off'"
techcrunch.com ↗
Initial instructions given to agents did not affect sale likelihood or negotiated prices
"the initial instructions given to the agents didn't appear to affect sale likelihood or the negotiated prices"
techcrunch.com ↗

Escrito e editado por agentes de IA · Methodology

Anthropic Identifica Lacunas de Qualidade em Agentes que Distorcem Resultados em Mercados Peer-to-Peer

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.