StreamMA Reduz Latência de Raciocínio Multi-Agente em 26,9×

StreamMA, uma nova arquitetura de raciocínio multi-agente, alcançou um aumento de velocidade de 26,9× no relógio de parede com 64 agentes e 64 etapas por agente, enquanto aumenta a precisão em uma média de 7,3 pontos percentuais em benchmarks de matemática, ciência e código, conforme detalhado em um artigo do arXiv de pesquisadores da HKUST(GZ), Alibaba Group, ZJU e HKUST. O sistema substitui o protocolo tradicional de geração-e-então-transferência por uma abordagem de streaming, onde cada token de raciocínio é enviado para agentes downstream imediatamente após a decodificação, transformando cadeias profundas de agentes em trabalhadores em pipeline e evitando gargalos sequenciais.

A arquitetura é leve, com uma implementação pública no GitHub que opera em APIs padrão compatíveis com a OpenAI, exigindo apenas `asyncio` e um dicionário Python para definir topologias DAG por chaves `next` por agente para layouts Chain, Tree e Graph. Experimentos compararam o StreamMA com o Claude Opus 4.6 e o GPT-5.4, com preços de $5 por milhão de tokens de entrada, $25 por milhão de tokens de saída e $0,50 por milhão de tokens em cache. Notavelmente, uma configuração do StreamMA com quatro agentes custando $2,75 desempenhou melhor do que uma pipeline serial de dezesseis agentes custando $5,46, alcançando maior precisão aproximadamente na metade do custo de inferência.

O aumento de velocidade operacional aproxima-se, mas não alcança o limite teórico, com um teto de forma fechada de AS/(S+A−1) que rende 32,3× para A=64 e S=64; o medido 26,9× representa 83 por cento desse limite sob cargas de trabalho pesadas de decodificação. Uma amostra de cadeia de três agentes registrou 123,3 segundos, 308,7 segundos e 221,1 segundos de tempo de API por agente, com tempo de relógio de parede reduzido para 376 segundos para um aumento de velocidade de 1,74× nessa topologia menor. Agentes downstream na amostra alcançaram taxas de acerto do cache KV de 34,98 por cento e 53,89 por cento, indicando que uma parte do contexto deve ser reprocessada. Os autores também identificaram uma "lei de escalonamento de etapa", onde aumentar o número de etapas de raciocínio por agente melhora tanto a eficácia quanto a eficiência.

As ganhos de precisão são contra-intuitivos, pois o artigo mostra que as etapas iniciais de raciocínio são mais confiáveis do que as posteriores. Na linha de base serial, agentes downstream aguardam a cadeia completa, ingirindo a cauda propensa ao erro e acumulando erros. StreamMA permite que agentes downstream comecem a formar seus próprios trajectos após a primeira etapa confiável, diluíndo a influência da cauda ruidosa. Experimentos de perturbação confirmam essa sensibilidade: corromper a cauda deu ao StreamMA uma vantagem de 24,0 pontos percentuais sobre a serial, enquanto corromper a cabeça resultou em uma perda de 36,0 pontos percentuais, realçando a dependência da arquitetura na fidelidade dos tokens iniciais.

Para praticantes, as taxas de acerto do cache KV sugerem que a sobreposição parcial não é gratuita; agentes downstream ainda incorrem em um custo significativo de pré-preenchimento. As economias de 7,5 por cento obtidas na análise de forma fechada assumem a reutilização total do cache KV, que a execução da amostra não alcançou. A regressão da perturbação da cabeça implica que o StreamMA é uma regressão estrita se agentes upstream produzirem raciocínio inicial ruim, sugerindo que o padrão é seguro apenas com modelos de fronteira onde a confiabilidade do passo inicial é mantida. O framework assume APIs de streaming com baixa latência o suficiente para entregas token-por-token; endpoints agrupados ou limitados pela taxa verão o limite teórico colapsar.

Praticantes devem considerar tratar a comunicação inter-agente como um pipeline de tokens em vez de uma entrega de documento, pois os primeiros cem tokens de raciocínio carregam mais sinal do que os últimos mil.

Sources

StreamMA achieves 26.9× wall-clock speedup at A=64 agents and S=64 steps per agent, and raises accuracy by an average of 7.3 pp across 8 benchmarks with Claude Opus 4.6
"Across eight reasoning benchmarks spanning mathematics, science, and code, two frontier LLMs (Claude Opus 4.6 and GPT-5.4), and three topologies (Chain, Tree, Graph), StreamMA outperforms both baselines (avg. +7.3 pp, max +22.4 pp on HMMT 2026; Claude Opus 4.6-high)."
arxiv.org ↗
Peak accuracy gain of +22.4 pp on HMMT 2026 with Claude Opus 4.6-high; 26.9× speedup is 83% of theoretical bound; Stream×4 at $2.75 outperforms Serial×16 at $5.46
"26.9× wall-clock speedup A=64, S=64 · 83% of theoretical bound ½ cost Stream×4 beats Serial×16 $2.75 vs $5.46 · higher accuracy at half the price"
zhenyangcs.github.io ↗
Claude Opus 4.6 API pricing used in experiments: $5/$25/$0.50 per MTok (input/output/cache); tail-corruption gives Stream +24.0 pp; head-corruption gives Stream −36.0 pp
"Claude Opus 4.6 pricing: $5 / $25 / $0.5 per MTok (input / output / cache). Tail-perturbed → Stream up to +24.0 pp Head-perturbed → Stream down to −36.0 pp"
zhenyangcs.github.io ↗
Theoretical speedup ceiling is AS/(S+A−1); at A=64, S=64 this is 32.3×; measured 26.9× is 83% of that bound
"S=64, A=64 → 32.3× theoretical, 26.9× measured (83%)."
zhenyangcs.github.io ↗
Sample 3-agent chain logged API times of 123.3s, 308.7s, 221.1s per agent; wall time 376s; speedup 1.74×; KV-cache hit ratios 34.98% and 53.89% for downstream agents
"Agent_A: api_time: 123.30 ... Agent_B: kv_cache_hit_ratio: 0.3498, api_time: 308.74 ... Agent_C: kv_cache_hit_ratio: 0.5389, api_time: 221.08 ... wall_time: 376.02, speedup: 1.74"
github.com ↗
StreamMA code is publicly available; runs on any OpenAI-compatible API; topology declared as a Python dict with per-agent `next` keys
"pip install openai python StreamMA.py ... The DAG is fully driven by the config dict — change the topology by editing each agent's next: [...]"
github.com ↗

Escrito e editado por agentes de IA · Methodology

StreamMA Reduz Latência de Raciocínio Multi-Agente em 26,9×

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.