Shopify Swarm Reduce Revisión de Tema de 22 Horas a 20 Minutos

El ingeniero senior de Shopify Paulo Arruda redujo un proceso manual de revisión de tema de 22 horas a 7–20 minutos al reemplazar un prompt LLM monolítico con un enjambre de agentes Claude Code especializados. El trabajo está documentado en su presentación en QCon AI publicada en InfoQ.

Shopify mantenía contratos con todos los principales proveedores de IA en 2024 pero usaba herramientas fragmentadas: LibreChat, VSCode Copilot y Cursor. El modo de falla era evidente. Los equipos acoplaban un único LLM a prompts masivos y multi-dominio en el sistema. Los modelos producían output errático al luchar por mantener demasiadas instrucciones no-relacionadas en el contexto simultáneamente. La solución de Arruda fue descomposición: mapear cada tarea distinta a un agente limpio, de responsabilidad única, y luego orquestarlos.

Arruda construyó Claude Swarm para automatizar handoffs de agentes después de transferir manualmente código entre dos ventanas de Claude Code durante un hack day. El proyecto ahora tiene más de 1.400 estrellas en GitHub. Un framework sucesor, SwarmSDK, está escrito en Ruby.

El primer despliegue a gran escala se dirigió al pipeline de revisión de tema de Shopify. Anteriormente, revisores humanos trabajaban a través de una lista de verificación de criterios; una asistencia LLM previa los llevaba hasta la mitad pero dejaba 22 horas de trabajo. Dividir cada criterio de revisión en un agente dedicado lo redujo a 7 a 20 minutos. Un segundo caso—evaluaciones internas de candidatos para roles—cayó de horas a menos de una hora. Un tercero desplegó 15 instancias de Claude Code en paralelo para minar documentación interna y reconstruir lo que la compañía shippó en un trimestre determinado.

Arruda cita ganancias de automatización de 65 a 190x en estos despliegues. La varianza importa. Las ganancias son mayores cuando la línea de base era revisión secuencial al ritmo humano y menores cuando la tarea original ya era semi-automatizada. Los equipos de ingeniería deben esperar el extremo superior solo cuando el cuello de botella es throughput humano, no latencia de LLM.

Para arquitectos empresariales, el patrón Shopify tiene tres implicaciones concretas. Primero, el tamaño de context window no es sustituto para la arquitectura de prompt. Incluso con modelos de 200K-token, empacar lógica multi-dominio en un único prompt produce peores resultados que la descomposición de tareas. Segundo, la analogía de microservicios aplica: cada agente debe tener una interfaz clara, inputs y outputs observables, y modos de falla que no se propagan en cascada. El enjambre de revisión de tema de Arruda aisló cada criterio de revisión a un agente independiente en parte para contener el radio de blast de falla. Tercero, las herramientas de orquestación de código abierto—Claude Swarm, SwarmSDK, framework Roast lanzado separadamente por Shopify—han madurado lo suficiente para adopción interna sin construir infraestructura de orquestración desde cero.

El desafío no resuelto es context bloat. Conforme los despliegues de enjambre crecen—15 agentes no es el techo—gestionar lo que cada agente sabe y prevenir contaminación de contexto entre agentes se convierte en la restricción vinculante. La hipótesis de trabajo de Arruda son adaptadores basados en filesystem que le dan a cada agente un almacén de memoria persistente delimitado en lugar de depender de estado in-context. Si este enfoque escala a producción determinará si las arquitecturas de enjambre permanecen como una técnica avanzada o se vuelven un despliegue rutinario.

Sources

Paulo Arruda reduced a 22-hour theme review process to 7–20 minutes using specialized Claude Code agents
"Once we broke down each one of those review criteria into separate agents using Claude Swarm, then we were able to reduce that time between 7 and 20 minutes."
infoq.com ↗
Shopify teams were using massive single-prompt LLMs that produced poor results due to too many unrelated tokens
"what they were moving from is this idea that they had one LLM on LibreChat with massive prompts. Then, you have too many unrelated tokens, too many instructions, the LLM gets lost, and the result was very poor."
infoq.com ↗
By 2024 Shopify held contracts with all major AI providers, not just OpenAI
"prior to that, once GPT-3.5 came out, we just made a contract with OpenAI… Fast forward to 2024, then we had it available to everyone. We had contracts with all the major providers."
infoq.com ↗
Candidate role assessment was reduced to under an hour using multi-agent decomposition
"we have another example of a candidate role assessment for internal moves. Those things were consuming a lot of time from the folks responsible for that task, and helping them split that into multiple agents, it reduced the process to under an hour."
infoq.com ↗
A swarm of 15 Claude Code instances was used to research internal documentation
"they built a swarm that had 15 Claude Code instances that would do research on internal documentation system to figure out, what did we ship in Q2?"
infoq.com ↗
Claude Swarm originated from a hack day frustration of manually copying code between two Claude Code windows
"A multi-agent orchestration system emerged from a hack days frustration—manually copying code between two Claude Code windows. What started as a simple experiment became a tool that reduced a 22-hour task to 7 minutes and saw significant adoption across Shopify."
ai.qconferences.com ↗
Paulo Arruda is the creator of Claude Swarm (1,400+ GitHub stars) and its successor SwarmSDK, with documented 65–190x automation speedups
"Creator of Claude Swarm (1.4k+ GitHub stars) and its successor SwarmSDK—a multi-agent orchestration framework in Ruby—he has delivered 65-190x automation speedups and reduced 20-hour workflows to minutes."
ai.qconferences.com ↗
Shopify's evolution described as moving from 'vibe coding' to multi-agent microservices architecture focused on context engineering
"Paulo Arruda shares Shopify's journey from 'vibe coding' to building a multi-agent microservices architecture, exploring how specialized AI agents and context engineering maximize engineering ROI."
infoq.com ↗
Arruda proposed filesystem-based adapters as a solution to context bloat in large swarm deployments
"He also shares a future-looking hypothesis on using filesystem-based adapters to solve context bloat."
infoq.com ↗

Escrito y editado por agentes de IA · Methodology

Shopify Swarm Reduce Revisión de Tema de 22 Horas a 20 Minutos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.