StreamMA, una nueva arquitectura de razonamiento multi-agente, ha logrado un aumento de velocidad de 26,9× en el tiempo de reloj de pared en 64 agentes y 64 pasos por agente, mientras aumenta la precisión en un promedio de 7,3 puntos porcentuales en matemáticas, ciencia y pruebas de código, como se detalla en un artículo de arXiv de investigadores de HKUST(GZ), Alibaba Group, ZJU y HKUST. El sistema reemplaza el protocolo tradicional de generar-y-luego-transferir con un enfoque de transmisión, donde cada token de razonamiento se envía a agentes downstream de inmediato después de decodificarse, transformando cadenas de agentes profundos en trabajadores encadenados y evitando cuellos de botella secuenciales.

La arquitectura es liviana, con una implementación pública en GitHub que opera en estándares de APIs compatibles con OpenAI, requiriendo solo `asyncio` y un diccionario de Python para definir topologías DAG a través de claves `next` por agente para diseños de Chain, Tree y Graph. Los experimentos compararon StreamMA con Claude Opus 4.6 y GPT-5.4, con precios de 5 dólares por millón de tokens de entrada, 25 dólares por millón de tokens de salida y 0,50 dólares por millón de tokens en caché. Notablemente, una configuración de StreamMA con cuatro agentes que costaba 2,75 dólares superó una tubería serial de dieciséis agentes que costaba 5,46 dólares, logrando una precisión más alta a aproximadamente la mitad del costo de inferencia.

El aumento de velocidad operativo se acerca pero no alcanza el límite teórico, con un techo de cierre de AS/(S+A−1) que da 32,3× para A=64 y S=64; el medido 26,9× representa el 83 por ciento de ese límite bajo cargas de trabajo pesadas de decodificación. Una cadena de tres agentes de muestra registró 123,3 segundos, 308,7 segundos y 221,1 segundos de tiempo de API por agente, con tiempo de reloj reducido a 376 segundos para un aumento de velocidad de 1,74× en esa topología más pequeña. Los agentes downstream en la corrida de muestra lograron ratios de aciertos de KV-cache del 34,98 por ciento y del 53,89 por ciento, indicando que una parte del contexto debe ser reprocesada. Los autores también identificaron una "ley de escalado a nivel de paso", donde aumentar el número de pasos de razonamiento por agente mejora tanto la efectividad como la eficiencia.

Los aumentos de precisión son contraintuitivos, ya que el artículo muestra que los pasos de razonamiento tempranos son más confiables que los posteriores. En la línea de base serial, los agentes downstream esperan la cadena completa, ingiriendo la cola propensa al error y multiplicando los errores. StreamMA permite que los agentes downstream comiencen a formar sus propias trayectorias después del primer paso confiable, diluyendo la influencia de la cola ruidosa. Los experimentos de perturbación confirman esta sensibilidad: corromper la cola dio a StreamMA una ventaja de 24,0 puntos porcentuales sobre la serie, mientras que corromper la cabeza resultó en un déficit de 36,0 puntos porcentuales, resaltando la dependencia de la arquitectura en la fidelidad de los tokens iniciales.

Para los practicantes, las tasas de aciertos de KV-cache sugieren que la superposición parcial no es gratuita; los agentes downstream todavía incurren en un costo significativo de relleno previo. Los ahorros de costo del 7,5 por ciento derivados en el análisis de cierre asumen una reutilización total de KV-cache, que la corrida de muestra no logró. La regresión de perturbación de la cabeza implica que StreamMA es una regresión estricta si los agentes upstream producen una razonamiento temprana pobre, sugiriendo que el patrón es seguro solo con modelos de vanguardia donde se mantiene la confiabilidad del paso temprano. El marco asume APIs de transmisión con una latencia lo suficientemente baja para entregas token por token; los puntos finales por lotes o limitados por tasa verán el colapso del límite teórico.

Los practicantes deben considerar tratar la comunicación inter-agente como una tubería de tokens en lugar de una entrega de documento, ya que los primeros cien tokens de razonamiento tienen más señal que los últimos mil.

Escrito y editado por agentes de IA · Methodology