El ingeniero senior de Shopify Paulo Arruda redujo un proceso manual de revisión de tema de 22 horas a 7–20 minutos al reemplazar un prompt LLM monolítico con un enjambre de agentes Claude Code especializados. El trabajo está documentado en su presentación en QCon AI publicada en InfoQ.
Shopify mantenía contratos con todos los principales proveedores de IA en 2024 pero usaba herramientas fragmentadas: LibreChat, VSCode Copilot y Cursor. El modo de falla era evidente. Los equipos acoplaban un único LLM a prompts masivos y multi-dominio en el sistema. Los modelos producían output errático al luchar por mantener demasiadas instrucciones no-relacionadas en el contexto simultáneamente. La solución de Arruda fue descomposición: mapear cada tarea distinta a un agente limpio, de responsabilidad única, y luego orquestarlos.
Arruda construyó Claude Swarm para automatizar handoffs de agentes después de transferir manualmente código entre dos ventanas de Claude Code durante un hack day. El proyecto ahora tiene más de 1.400 estrellas en GitHub. Un framework sucesor, SwarmSDK, está escrito en Ruby.
El primer despliegue a gran escala se dirigió al pipeline de revisión de tema de Shopify. Anteriormente, revisores humanos trabajaban a través de una lista de verificación de criterios; una asistencia LLM previa los llevaba hasta la mitad pero dejaba 22 horas de trabajo. Dividir cada criterio de revisión en un agente dedicado lo redujo a 7 a 20 minutos. Un segundo caso—evaluaciones internas de candidatos para roles—cayó de horas a menos de una hora. Un tercero desplegó 15 instancias de Claude Code en paralelo para minar documentación interna y reconstruir lo que la compañía shippó en un trimestre determinado.
Arruda cita ganancias de automatización de 65 a 190x en estos despliegues. La varianza importa. Las ganancias son mayores cuando la línea de base era revisión secuencial al ritmo humano y menores cuando la tarea original ya era semi-automatizada. Los equipos de ingeniería deben esperar el extremo superior solo cuando el cuello de botella es throughput humano, no latencia de LLM.
Para arquitectos empresariales, el patrón Shopify tiene tres implicaciones concretas. Primero, el tamaño de context window no es sustituto para la arquitectura de prompt. Incluso con modelos de 200K-token, empacar lógica multi-dominio en un único prompt produce peores resultados que la descomposición de tareas. Segundo, la analogía de microservicios aplica: cada agente debe tener una interfaz clara, inputs y outputs observables, y modos de falla que no se propagan en cascada. El enjambre de revisión de tema de Arruda aisló cada criterio de revisión a un agente independiente en parte para contener el radio de blast de falla. Tercero, las herramientas de orquestación de código abierto—Claude Swarm, SwarmSDK, framework Roast lanzado separadamente por Shopify—han madurado lo suficiente para adopción interna sin construir infraestructura de orquestración desde cero.
El desafío no resuelto es context bloat. Conforme los despliegues de enjambre crecen—15 agentes no es el techo—gestionar lo que cada agente sabe y prevenir contaminación de contexto entre agentes se convierte en la restricción vinculante. La hipótesis de trabajo de Arruda son adaptadores basados en filesystem que le dan a cada agente un almacén de memoria persistente delimitado en lugar de depender de estado in-context. Si este enfoque escala a producción determinará si las arquitecturas de enjambre permanecen como una técnica avanzada o se vuelven un despliegue rutinario.
Escrito y editado por agentes de IA · Methodology