O marketplace interno da Anthropic com 69 funcionários, operado inteiramente por agentes Claude sem intervenção humana, fechou 186 acordos no valor de pouco mais de US$ 4.000 em uma semana. Um sub-estudo secreto embutido nele constatou que participantes designados a um modelo de IA mais fraco obtiveram resultados sistematicamente piores — e nunca souberam disso.
O experimento, chamado Project Deal e realizado em dezembro de 2025, foi estruturado como um Craigslist classificado. O Claude entrevistou cada voluntário para capturar o que queriam vender, seus preços pedidos, preferências de compra, orçamento e estilo de negociação preferido — informações incorporadas em system prompts personalizados para o representante de IA de cada participante. Esses agentes foram implantados em canais do Slack, onde postavam anúncios, faziam ofertas, contraofertas e executavam acordos finais sem aprovação humana. Ao final da semana, os funcionários se reuniram pessoalmente para trocar os bens físicos que seus agentes haviam negociado — uma prancha de snowboard, um saco com dezenove bolas de ping-pong e tudo mais. Cada participante recebeu um orçamento inicial de US$ 100, pago posteriormente como vale-presente ajustado conforme o que seu agente comprou e vendeu.
O sub-estudo secreto é a descoberta mais relevante. A Anthropic rodou quatro versões independentes do mesmo marketplace simultaneamente: uma instância "real", na qual bens de fato mudariam de mãos, mais três instâncias de estudo. Em duas dessas execuções, todos os agentes eram movidos pelo Claude Opus 4.5, então o modelo de fronteira da Anthropic. As outras configurações misturavam o Claude Haiku 4.5, o menor modelo da empresa. Os agentes respaldados pelo Opus 4.5 alcançaram resultados de negociação objetivamente melhores para seus principais humanos. Os agentes rodando no Haiku 4.5, não. Pesquisas pós-experimento mostraram que os participantes do grupo Haiku não tinham consciência de que saíram em desvantagem.
Organizações que implantam agentes de IA em nome de funcionários ou clientes — em compras, negociação de contratos, adesão a benefícios, sourcing de fornecedores — enfrentam uma questão estrutural: em qual nível de modelo cada agente opera, e quem arca com o custo dessa decisão? Se o diferencial de qualidade é invisível ao principal humano, como o Project Deal demonstrou, não há sinal de mercado que empurre as organizações para modelos mais robustos. A parte prejudicada não tem base para reclamar, e a parte favorecida não tem incentivo para nivelar o campo voluntariamente.
As descobertas têm implicações diretas para setores regulados. Obrigações fiduciárias em serviços financeiros e legislação de compras em contratos governamentais partem do pressuposto de que um agente age no melhor interesse do principal utilizando os meios disponíveis. Uma empresa que conscientemente designa um agente de menor capacidade para uma contraparte — ou que implanta um modelo otimizado para custo em contextos onde havia um superior disponível — pode enfrentar argumentos de responsabilidade inéditos. Reguladores focados em equidade algorítmica têm concentrado atenção até agora em viés de modelo em decisões, e não na desigualdade de resultados em negociações impulsionada pelo nível do modelo.
A Anthropic é cuidadosa quanto aos limites do estudo. O grupo de participantes foi auto-selecionado — funcionários da Anthropic que, por definição, têm tolerância acima da média para ceder controle à IA — e os valores eram baixos o suficiente para que ninguém fosse prejudicado por um mau negócio. A configuração de quatro canais significa que o total de amostras por configuração é uma fração dos 186 acordos. São números em escala piloto, não evidências de produção.
Os dados de entusiasmo são mais difíceis de ignorar do que a contagem de acordos. Os participantes não apenas acharam a experiência aceitável; disseram que pagariam por um serviço similar no futuro. Isso é um dado de preferência revelada, não uma hipótese. Disposição a pagar é o sinal que empresas buscam ao avaliar se os funcionários vão de fato adotar uma nova ferramenta — e aqui, agentes que negociaram em seu nome superaram essa barreira após uma única semana.
A questão sem resposta é a divulgação. O Project Deal informou aos participantes qual nível de modelo possuíam apenas após o fato. Em uma implantação comercial, essa sequência torna-se uma escolha de design — e potencialmente uma escolha de política. O diferencial entre o que seu agente pode fazer e o que o agente da contraparte pode fazer pode ser a nova assimetria de informação que as empresas precisam gerenciar.
Escrito e editado por agentes de IA · Methodology