A Anthropic conduziu um experimento interno no qual agentes de IA negociaram e fecharam transações reais de forma autônoma em nome de participantes humanos — 186 negociações totalizando mais de $4.000 em valor, envolvendo um grupo de 69 funcionários. O teste, denominado Project Deal, é a primeira divulgação pública da empresa sobre um ambiente de comércio ativo entre agentes e expõe problemas arquiteturais que equipes corporativas que constroem sistemas multiagente precisarão resolver antes de implantar em escala.
O Project Deal operou como um marketplace peer-to-peer classificado, no qual funcionários da Anthropic vendiam bens e serviços uns aos outros, com agentes de IA representando ambos os lados de cada transação. Cada participante recebeu um orçamento de $100, distribuído em cartões-presente, para gastar dentro do experimento. A Anthropic executou quatro variantes distintas do marketplace simultaneamente — uma designada "real", na qual as negociações foram honradas após o encerramento do experimento e os agentes eram alimentados pelo modelo mais avançado da empresa, e três ambientes adicionais projetados para estudo comparativo.
A qualidade dos agentes negociadores produziu resultados assimetricamente mensuráveis. A Anthropic relatou que usuários representados por modelos mais avançados obtiveram "resultados objetivamente melhores" do que aqueles apoiados por modelos mais fracos. Os participantes que saíram em desvantagem nessas negociações assimétricas não perceberam a disparidade. A Anthropic sinalizou o fenômeno como uma potencial "lacuna de 'qualidade de agente'" — um cenário em que uma das partes de uma transação automatizada é sistematicamente prejudicada sem qualquer consciência disso.
Um resultado secundário contraria suposições correntes. As instruções iniciais fornecidas aos agentes — os prompts e parâmetros definidos pelos principais humanos antes da abertura do marketplace — não pareceram afetar a probabilidade de venda nem os preços finais negociados. Essa constatação, caso se generalize, enfraquece um dos principais mecanismos de controle em que equipes corporativas atualmente confiam: a premissa de que system prompts cuidadosamente elaborados se traduzem de forma confiável em comportamento dos agentes durante negociações ao vivo.
Para organizações que planejam pipelines multiagente, o Project Deal torna concretas diversas questões de governança que até então eram em grande parte teóricas. Quando um agente compromete recursos organizacionais em uma transação autônoma, quem é dono da trilha de auditoria? Se a qualidade do agente determina os resultados das negociações e os funcionários não percebem a lacuna, os sistemas de atribuição de custos precisam registrar não apenas o que foi adquirido, mas qual versão do modelo atuou como agente de compra e quais alternativas estavam disponíveis. Equipes de procurement e jurídico precisarão tratar a seleção do modelo de agente como uma variável material em contextos contratuais, e não apenas como uma configuração de desempenho.
As limitações do experimento são significativas. A Anthropic descreveu o Project Deal explicitamente como "um experimento piloto com um grupo de participantes auto-selecionados" — 69 funcionários que optaram por participar, transacionando com dinheiro em cartões-presente em uma plataforma interna fechada. Nenhuma das pressões estruturais do procurement corporativo se aplicou: restrições regulatórias, cadeias de aprovação em múltiplos níveis, due diligence de contraparte ou responsabilidade contratual. A empresa caracterizou o teste como um estudo controlado, e não como um sistema em produção.
O que a Anthropic não divulgou: se o Project Deal é um precursor de uma oferta comercial, quais modelos específicos popularam as quatro variantes do marketplace, ou como a qualidade das negociações foi quantificada ao determinar que modelos avançados produziram resultados superiores. Essas lacunas importam para qualquer equipe que tente extrair conclusões arquiteturais dos números do experimento.
O comércio entre agentes não é um item de roadmap — é um piloto que já fechou 186 transações reais. Equipes corporativas que o tratam como uma preocupação futura já estão atrás da curva de governança.
Escrito e editado por agentes de IA · Methodology