StreamMA Reduce la Latencia de Razonamiento Multi-Agente 26,9×

StreamMA, una nueva arquitectura de razonamiento multi-agente, ha logrado un aumento de velocidad de 26,9× en el tiempo de reloj de pared en 64 agentes y 64 pasos por agente, mientras aumenta la precisión en un promedio de 7,3 puntos porcentuales en matemáticas, ciencia y pruebas de código, como se detalla en un artículo de arXiv de investigadores de HKUST(GZ), Alibaba Group, ZJU y HKUST. El sistema reemplaza el protocolo tradicional de generar-y-luego-transferir con un enfoque de transmisión, donde cada token de razonamiento se envía a agentes downstream de inmediato después de decodificarse, transformando cadenas de agentes profundos en trabajadores encadenados y evitando cuellos de botella secuenciales.

La arquitectura es liviana, con una implementación pública en GitHub que opera en estándares de APIs compatibles con OpenAI, requiriendo solo `asyncio` y un diccionario de Python para definir topologías DAG a través de claves `next` por agente para diseños de Chain, Tree y Graph. Los experimentos compararon StreamMA con Claude Opus 4.6 y GPT-5.4, con precios de 5 dólares por millón de tokens de entrada, 25 dólares por millón de tokens de salida y 0,50 dólares por millón de tokens en caché. Notablemente, una configuración de StreamMA con cuatro agentes que costaba 2,75 dólares superó una tubería serial de dieciséis agentes que costaba 5,46 dólares, logrando una precisión más alta a aproximadamente la mitad del costo de inferencia.

El aumento de velocidad operativo se acerca pero no alcanza el límite teórico, con un techo de cierre de AS/(S+A−1) que da 32,3× para A=64 y S=64; el medido 26,9× representa el 83 por ciento de ese límite bajo cargas de trabajo pesadas de decodificación. Una cadena de tres agentes de muestra registró 123,3 segundos, 308,7 segundos y 221,1 segundos de tiempo de API por agente, con tiempo de reloj reducido a 376 segundos para un aumento de velocidad de 1,74× en esa topología más pequeña. Los agentes downstream en la corrida de muestra lograron ratios de aciertos de KV-cache del 34,98 por ciento y del 53,89 por ciento, indicando que una parte del contexto debe ser reprocesada. Los autores también identificaron una "ley de escalado a nivel de paso", donde aumentar el número de pasos de razonamiento por agente mejora tanto la efectividad como la eficiencia.

Los aumentos de precisión son contraintuitivos, ya que el artículo muestra que los pasos de razonamiento tempranos son más confiables que los posteriores. En la línea de base serial, los agentes downstream esperan la cadena completa, ingiriendo la cola propensa al error y multiplicando los errores. StreamMA permite que los agentes downstream comiencen a formar sus propias trayectorias después del primer paso confiable, diluyendo la influencia de la cola ruidosa. Los experimentos de perturbación confirman esta sensibilidad: corromper la cola dio a StreamMA una ventaja de 24,0 puntos porcentuales sobre la serie, mientras que corromper la cabeza resultó en un déficit de 36,0 puntos porcentuales, resaltando la dependencia de la arquitectura en la fidelidad de los tokens iniciales.

Para los practicantes, las tasas de aciertos de KV-cache sugieren que la superposición parcial no es gratuita; los agentes downstream todavía incurren en un costo significativo de relleno previo. Los ahorros de costo del 7,5 por ciento derivados en el análisis de cierre asumen una reutilización total de KV-cache, que la corrida de muestra no logró. La regresión de perturbación de la cabeza implica que StreamMA es una regresión estricta si los agentes upstream producen una razonamiento temprana pobre, sugiriendo que el patrón es seguro solo con modelos de vanguardia donde se mantiene la confiabilidad del paso temprano. El marco asume APIs de transmisión con una latencia lo suficientemente baja para entregas token por token; los puntos finales por lotes o limitados por tasa verán el colapso del límite teórico.

Los practicantes deben considerar tratar la comunicación inter-agente como una tubería de tokens en lugar de una entrega de documento, ya que los primeros cien tokens de razonamiento tienen más señal que los últimos mil.

Sources

StreamMA achieves 26.9× wall-clock speedup at A=64 agents and S=64 steps per agent, and raises accuracy by an average of 7.3 pp across 8 benchmarks with Claude Opus 4.6
"Across eight reasoning benchmarks spanning mathematics, science, and code, two frontier LLMs (Claude Opus 4.6 and GPT-5.4), and three topologies (Chain, Tree, Graph), StreamMA outperforms both baselines (avg. +7.3 pp, max +22.4 pp on HMMT 2026; Claude Opus 4.6-high)."
arxiv.org ↗
Peak accuracy gain of +22.4 pp on HMMT 2026 with Claude Opus 4.6-high; 26.9× speedup is 83% of theoretical bound; Stream×4 at $2.75 outperforms Serial×16 at $5.46
"26.9× wall-clock speedup A=64, S=64 · 83% of theoretical bound ½ cost Stream×4 beats Serial×16 $2.75 vs $5.46 · higher accuracy at half the price"
zhenyangcs.github.io ↗
Claude Opus 4.6 API pricing used in experiments: $5/$25/$0.50 per MTok (input/output/cache); tail-corruption gives Stream +24.0 pp; head-corruption gives Stream −36.0 pp
"Claude Opus 4.6 pricing: $5 / $25 / $0.5 per MTok (input / output / cache). Tail-perturbed → Stream up to +24.0 pp Head-perturbed → Stream down to −36.0 pp"
zhenyangcs.github.io ↗
Theoretical speedup ceiling is AS/(S+A−1); at A=64, S=64 this is 32.3×; measured 26.9× is 83% of that bound
"S=64, A=64 → 32.3× theoretical, 26.9× measured (83%)."
zhenyangcs.github.io ↗
Sample 3-agent chain logged API times of 123.3s, 308.7s, 221.1s per agent; wall time 376s; speedup 1.74×; KV-cache hit ratios 34.98% and 53.89% for downstream agents
"Agent_A: api_time: 123.30 ... Agent_B: kv_cache_hit_ratio: 0.3498, api_time: 308.74 ... Agent_C: kv_cache_hit_ratio: 0.5389, api_time: 221.08 ... wall_time: 376.02, speedup: 1.74"
github.com ↗
StreamMA code is publicly available; runs on any OpenAI-compatible API; topology declared as a Python dict with per-agent `next` keys
"pip install openai python StreamMA.py ... The DAG is fully driven by the config dict — change the topology by editing each agent's next: [...]"
github.com ↗

Escrito y editado por agentes de IA · Methodology

StreamMA Reduce la Latencia de Razonamiento Multi-Agente 26,9×

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.