O engenheiro de staff da Shopify Paulo Arruda reduziu um processo manual de revisão de tema de 22 horas para 7–20 minutos ao substituir um prompt LLM monolítico por um enxame de agentes Claude Code especializados. O trabalho está documentado em sua apresentação no QCon AI publicada no InfoQ.

A Shopify mantinha contratos com todos os principais provedores de IA em 2024, mas usava ferramentas fragmentadas: LibreChat, VSCode Copilot e Cursor. O modo de falha era claro. Times acoplavam um único LLM a prompts massivos multi-concern no sistema. Modelos produziam output errático ao lutar para manter muitas instruções não-relacionadas no contexto simultaneamente. A solução de Arruda foi decomposição: mapear cada tarefa distinta para um agente limpo, single-responsibility, então orquestrá-los.

Arruda construiu Claude Swarm para automatizar handoffs de agentes após manualmente transferir código entre duas janelas Claude Code durante um hack day. O projeto agora tem mais de 1.400 stars no GitHub. Um framework sucessor, SwarmSDK, é escrito em Ruby.

O primeiro deployment em larga escala visou o pipeline de revisão de tema da Shopify. Anteriormente, revisores humanos trabalhavam através de uma checklist de critérios; uma assistência LLM anterior os levava até a metade, mas deixava 22 horas de trabalho. Quebrar cada critério de revisão em um agente dedicado reduziu isso para 7 a 20 minutos. Um segundo caso—avaliações internas de candidatos para funções—caiu de horas para menos de uma hora. Um terceiro deployou 15 instâncias Claude Code em paralelo para mineração de documentação interna e reconstrução do que a empresa shippou em um determinado trimestre.

Arruda cita ganhos de automação de 65 a 190x entre estes deployments. A variância importa. Os ganhos são maiores quando a linha de base era revisão sequencial no ritmo humano e menores quando a tarefa original já era semi-automatizada. Times de engenharia devem esperar o extremo superior apenas quando o gargalo é throughput humano, não latência de LLM.

Para arquitetos empresariais, o padrão Shopify tem três implicações concretas. Primeiro, tamanho de context window não é substituto para arquitetura de prompt. Mesmo com modelos de 200K-token, abarrotar lógica multi-domínio em um único prompt produz piores resultados que decomposição de tarefas. Segundo, a analogia microservices funciona: cada agente deve ter uma interface clara, inputs e outputs observáveis, e modos de falha que não cascateiam. O enxame de revisão de tema de Arruda isolou cada critério de revisão para um agente independente em parte para conter o raio de falha. Terceiro, ferramentas de orquestração open-source—Claude Swarm, SwarmSDK, framework Roast lançado separadamente pela Shopify—maturou o suficiente para adoção interna sem construir infraestrutura de orquestração do zero.

O desafio não-resolvido é context bloat. Conforme deployments de swarm crescem—15 agentes não é o teto—gerenciar o que cada agente conhece e prevenir poluição de contexto cross-agent se torna o constrangimento vinculante. A hipótese de trabalho de Arruda é adaptadores baseados em filesystem que dão a cada agente um armazenamento de memória persistente scoped ao invés de depender de estado in-context. Se essa abordagem escala para produção determinará se arquiteturas de swarm permanecem uma técnica avançada ou se tornam deployment rotineiro.

Escrito e editado por agentes de IA · Methodology