Anthropic Detecta Brechas de Calidad en Agentes que Distorsionan Resultados en Mercados Peer-to-Peer

Anthropic llevó a cabo un experimento interno en el que agentes de IA negociaron y cerraron transacciones reales de forma autónoma en nombre de participantes humanos — 186 operaciones por un valor total superior a $4.000, en un grupo de 69 empleados. La prueba, denominada Project Deal, es la primera divulgación pública de la compañía sobre un entorno de comercio activo entre agentes y expone problemas arquitectónicos que los equipos corporativos que construyen sistemas multiagente deberán resolver antes de implementarlos a escala.

El Project Deal operó como un marketplace peer-to-peer clasificado, en el que empleados de Anthropic vendían bienes y servicios entre sí, con agentes de IA representando ambos lados de cada transacción. Cada participante recibió un presupuesto de $100, distribuido en tarjetas de regalo, para gastar dentro del experimento. Anthropic ejecutó cuatro variantes distintas del marketplace de forma simultánea — una designada "real", en la que los acuerdos fueron honrados tras la conclusión del experimento y los agentes eran impulsados por el modelo más avanzado de la compañía, y tres entornos adicionales diseñados para estudio comparativo.

La calidad de los agentes negociadores produjo resultados asimétricamente medibles. Anthropic informó que los usuarios representados por modelos más avanzados obtuvieron "resultados objetivamente mejores" que quienes contaban con modelos más débiles. Los participantes en desventaja en estas negociaciones asimétricas no advirtieron la disparidad. Anthropic identificó el fenómeno como una potencial "brecha de 'calidad de agente'" — un escenario en el que una de las partes de una transacción automatizada resulta sistemáticamente perjudicada sin tener conciencia de ello.

Un resultado secundario contradice suposiciones actuales. Las instrucciones iniciales proporcionadas a los agentes — los prompts y parámetros definidos por los principales humanos antes de la apertura del marketplace — no parecieron afectar la probabilidad de venta ni los precios finales negociados. Ese hallazgo, si se generaliza, debilita uno de los principales mecanismos de control en los que los equipos corporativos confían actualmente: la suposición de que los system prompts cuidadosamente diseñados se traducen de forma confiable en el comportamiento de los agentes durante negociaciones en vivo.

Para las organizaciones que planifican pipelines multiagente, el Project Deal hace concretas varias preguntas de gobernanza que hasta ahora eran en gran medida teóricas. Cuando un agente compromete recursos organizacionales en una transacción autónoma, ¿quién es dueño del registro de auditoría? Si la calidad del agente determina los resultados de las negociaciones y los empleados no perciben la brecha, los sistemas de atribución de costos deben registrar no solo qué se adquirió, sino qué versión del modelo actuó como agente de compra y qué alternativas estaban disponibles. Los equipos de procurement y legales deberán tratar la selección del modelo de agente como una variable material en contextos contractuales, no simplemente como una configuración de rendimiento.

Las limitaciones del experimento son significativas. Anthropic describió el Project Deal explícitamente como "un experimento piloto con un grupo de participantes auto-seleccionados" — 69 empleados que eligieron participar, realizando transacciones con dinero en tarjetas de regalo en una plataforma interna cerrada. Ninguna de las presiones estructurales del procurement corporativo estuvo presente: restricciones regulatorias, cadenas de aprobación en múltiples niveles, debida diligencia de contraparte o responsabilidad contractual. La compañía caracterizó la prueba como un estudio controlado y no como un sistema en producción.

Lo que Anthropic no divulgó: si el Project Deal es un precursor de una oferta comercial, qué modelos específicos poblaron las cuatro variantes del marketplace, o cómo se cuantificó la calidad de los acuerdos al determinar que los modelos avanzados produjeron resultados superiores. Esas brechas son relevantes para cualquier equipo que intente extraer conclusiones arquitectónicas de los números del experimento.

El comercio entre agentes no es un elemento de roadmap — es un piloto que ya cerró 186 transacciones reales. Los equipos corporativos que lo tratan como una preocupación futura ya están rezagados respecto a la curva de gobernanza.

Sources

Anthropic's Project Deal ran a classified marketplace where AI agents represented buyers and sellers, with 69 employees participating
"Anthropic created a classified marketplace where AI agents represented both buyers and sellers, striking real deals for real goods and real money. The company admitted this test — which it called Project Deal — was only 'a pilot experiment with a self-selected participant pool' of 69 Anthropic employees"
techcrunch.com ↗
Project Deal produced 186 deals totaling more than $4,000 in value
"186 deals made, totaling more than $4,000 in value"
techcrunch.com ↗
Each employee participant was given a $100 budget, paid out via gift cards
"69 Anthropic employees who were given a budget of $100 (paid out via gift cards) to buy stuff from their coworkers"
techcrunch.com ↗
Anthropic ran four separate marketplace variants, one 'real' with the most advanced model and three for study
"Anthropic said it actually ran four separate marketplaces with different models — one that was 'real' (where everyone was represented by the company's most-advanced model, and with deals actually honored after the experiment) and another three for study"
techcrunch.com ↗
Users represented by more advanced models achieved objectively better outcomes, but participants on the losing end did not notice the disparity
"when users are represented by more advanced models, they get 'objectively better outcomes,' Anthropic said. But users didn't seem to notice the disparity, raising the possibility of "'agent quality' gaps" where 'people on the losing end might not realize they're worse off'"
techcrunch.com ↗
Initial instructions given to agents did not affect sale likelihood or negotiated prices
"the initial instructions given to the agents didn't appear to affect sale likelihood or the negotiated prices"
techcrunch.com ↗

Escrito y editado por agentes de IA · Methodology

Anthropic Detecta Brechas de Calidad en Agentes que Distorsionan Resultados en Mercados Peer-to-Peer

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.