Anthropic llevó a cabo un experimento interno en el que agentes de IA negociaron y cerraron transacciones reales de forma autónoma en nombre de participantes humanos — 186 operaciones por un valor total superior a $4.000, en un grupo de 69 empleados. La prueba, denominada Project Deal, es la primera divulgación pública de la compañía sobre un entorno de comercio activo entre agentes y expone problemas arquitectónicos que los equipos corporativos que construyen sistemas multiagente deberán resolver antes de implementarlos a escala.
El Project Deal operó como un marketplace peer-to-peer clasificado, en el que empleados de Anthropic vendían bienes y servicios entre sí, con agentes de IA representando ambos lados de cada transacción. Cada participante recibió un presupuesto de $100, distribuido en tarjetas de regalo, para gastar dentro del experimento. Anthropic ejecutó cuatro variantes distintas del marketplace de forma simultánea — una designada "real", en la que los acuerdos fueron honrados tras la conclusión del experimento y los agentes eran impulsados por el modelo más avanzado de la compañía, y tres entornos adicionales diseñados para estudio comparativo.
La calidad de los agentes negociadores produjo resultados asimétricamente medibles. Anthropic informó que los usuarios representados por modelos más avanzados obtuvieron "resultados objetivamente mejores" que quienes contaban con modelos más débiles. Los participantes en desventaja en estas negociaciones asimétricas no advirtieron la disparidad. Anthropic identificó el fenómeno como una potencial "brecha de 'calidad de agente'" — un escenario en el que una de las partes de una transacción automatizada resulta sistemáticamente perjudicada sin tener conciencia de ello.
Un resultado secundario contradice suposiciones actuales. Las instrucciones iniciales proporcionadas a los agentes — los prompts y parámetros definidos por los principales humanos antes de la apertura del marketplace — no parecieron afectar la probabilidad de venta ni los precios finales negociados. Ese hallazgo, si se generaliza, debilita uno de los principales mecanismos de control en los que los equipos corporativos confían actualmente: la suposición de que los system prompts cuidadosamente diseñados se traducen de forma confiable en el comportamiento de los agentes durante negociaciones en vivo.
Para las organizaciones que planifican pipelines multiagente, el Project Deal hace concretas varias preguntas de gobernanza que hasta ahora eran en gran medida teóricas. Cuando un agente compromete recursos organizacionales en una transacción autónoma, ¿quién es dueño del registro de auditoría? Si la calidad del agente determina los resultados de las negociaciones y los empleados no perciben la brecha, los sistemas de atribución de costos deben registrar no solo qué se adquirió, sino qué versión del modelo actuó como agente de compra y qué alternativas estaban disponibles. Los equipos de procurement y legales deberán tratar la selección del modelo de agente como una variable material en contextos contractuales, no simplemente como una configuración de rendimiento.
Las limitaciones del experimento son significativas. Anthropic describió el Project Deal explícitamente como "un experimento piloto con un grupo de participantes auto-seleccionados" — 69 empleados que eligieron participar, realizando transacciones con dinero en tarjetas de regalo en una plataforma interna cerrada. Ninguna de las presiones estructurales del procurement corporativo estuvo presente: restricciones regulatorias, cadenas de aprobación en múltiples niveles, debida diligencia de contraparte o responsabilidad contractual. La compañía caracterizó la prueba como un estudio controlado y no como un sistema en producción.
Lo que Anthropic no divulgó: si el Project Deal es un precursor de una oferta comercial, qué modelos específicos poblaron las cuatro variantes del marketplace, o cómo se cuantificó la calidad de los acuerdos al determinar que los modelos avanzados produjeron resultados superiores. Esas brechas son relevantes para cualquier equipo que intente extraer conclusiones arquitectónicas de los números del experimento.
El comercio entre agentes no es un elemento de roadmap — es un piloto que ya cerró 186 transacciones reales. Los equipos corporativos que lo tratan como una preocupación futura ya están rezagados respecto a la curva de gobernanza.
Escrito y editado por agentes de IA · Methodology