TFlow reduce tokens de inferencia multi-agente 83% mediante inyección de pesos

Un equipo de University of Central Florida, Westlake University, Snap Inc., UT-Austin y Tencent propuso reemplazar el paso de mensajes en lenguaje natural en sistemas multi-agente LLM con perturbaciones directas de pesos. Su método, TFlow (Thought Flow), corta tokens procesados totales en hasta 83,27% contra una línea base de tres agentes basada en texto estándar y reduce el tiempo de inferencia wall-clock en hasta 4,6×, manteniendo precisión en cuatro de cinco benchmarks evaluados.

En pipelines multi-agente convencionales, cada remitente codifica su entendimiento en lenguaje natural, lo envía como tokens y el receptor recodifica esos tokens en prefill. La caché KV crece con cada mensaje de agente y el overhead de prefill se compone a través de cadenas de razonamiento. TFlow elimina el mensaje completamente. Cada remitente — un Qwen3-4B congelado y con indicación de rol — procesa la consulta una vez y expone sus estados ocultos a un generador de parámetros aprendido compartilhado. Ese generador mapea las activaciones en factores LoRA específicos de capas dirigidos a los módulos lineales del receptor.

Los deltas LoRA de múltiples remitentes se fusionan mediante una puerta escalar ligera y se aplican transitoriamente en el forward pass congelado del receptor solo durante la generación. Después de que se produce la respuesta, el parche se descarta y el modelo base se restaura — sin estado de adaptador persistente, sin cambios de peso permanentes, sin inflación de contexto del receptor. El receptor ve solo el texto de consulta original, con sus parámetros silenciosamente modulados por lo que los remitentes computaron.

En cinco benchmarks — GSM8K, MATH, MBPP+, HumanEval+ y una tarea adicional — TFlow con tres agentes Qwen3-4B mejora la precisión en hasta 8,5 puntos sobre una línea base de agente único mientras reduce tokens procesados en hasta 32,69%. Contra la línea base TextMAS basada en texto con tres agentes comunicándose mediante lenguaje natural, las ganancias se profundizan: 83,27% menos tokens totales procesados y una aceleración wall-clock de 4,6×. Específicamente en GSM8K, el consumo de tokens cae 76,7% versus TextMAS con precisión competitiva. Comparado con un control LoRA estático — un adaptador fijo sin condicionamiento de consulta — TFlow entrega una ganancia de precisión promedio de 4,29 puntos, con los márgenes más grandes en MBPP+ y HumanEval+.

TFlow requiere que la arquitectura del receptor y los módulos objetivo se conozcan en tiempo de entrenamiento, y el generador de parámetros es específico del receptor. Mezclar familias de modelos — un remitente Mistral dirigido a un receptor Llama — no es soportado por el framework actual. TFlow coincide con la precisión basada en texto en cuatro de cinco benchmarks; una tarea muestra eficiencia de tokens a costo de razonamiento. El paper (arXiv:2605.13839v1, 13 de mayo de 2026) no reporta números de deployment en producción — sin $/1M tokens, sin tipo de GPU de servicio, sin desglose de latencia p99. El costo de inferencia del generador de parámetros en sí no se cuantifica por separado, dejando el overhead por-consulta total poco claro. El paper no presenta experimentos de conversación multi-turno, que importan en configuraciones agentic donde los agentes intercambian múltiples mensajes por tarea.

Si tu pipeline se centra en un modelo receptor fijo donde el mismo backbone siempre produce salida final, la inyección LoRA condicionada por consulta de remitentes congelados paralelos es una alternativa viable al paso de tokens. Las reducciones de token y latencia son sustanciales, pero debes entrenar un generador específico del receptor y comprometerte con una familia de modelos homogénea.

Sources

TFlow reduces total processed tokens by up to 83.27% and wall-clock inference time by up to 4.6× versus a text-based three-agent baseline
"it reduces total processed tokens by up to 83.27% and the wall-clock inference time by up to 4.6×, while maintaining competitive accuracy on four of five benchmarks"
arxiv.org ↗
TFlow improves over a standalone receiver by up to 8.5 accuracy points while reducing processed tokens by up to 32.69%
"TFlow improves over a standalone receiver by up to 8.5 accuracy points across five benchmarks while reducing processed tokens by up to 32.69%"
arxiv.org ↗
On GSM8K, TFlow reduces token consumption by 76.7% versus TextMAS with competitive accuracy
"TFlow achieves accuracy competitive with TextMAS while reducing token consumption by 76.7%, substantially surpassing the single-agent baseline in both accuracy and efficiency"
arxiv.org ↗
Senders are frozen Qwen3-4B models; a learned parameter generator maps their hidden states into low-rank LoRA perturbations targeting the receiver's modules
"frozen role-prompted sender agents process the input, and a learned parameter generator maps their internal activations into low-rank LoRA perturbations targeting the receiver's modules"
arxiv.org ↗
TFlow outperforms a static LoRA baseline by 4.29 accuracy points on average, with the largest gains on MBPP+ and HumanEval+
"TFLOW achieves substantially stronger performance, outperforming Static-LoRA by 4.29 points on average, with especially clear gains on more challenging reasoning and code-oriented benchmarks such as MBPP+ and HumanEval+"
arxiv.org ↗
After generation, the LoRA patch is discarded and the base model is restored; each input induces its own temporary parameterization
"After generation, the patch is discarded, ensuring that each input induces its own temporary parameterization and that all subsequent inputs start from the same froz"
arxiv.org ↗
Authors are affiliated with University of Central Florida, Westlake University, Snap Inc., UT-Austin, and Tencent; paper published May 13, 2026
"arXiv:2605.13839v1 [cs.CL] 13 May 2026 · Wenrui Bao University of Central Florida &Huan Wang Westlake University &Jian Wang Snap Inc. Zhangyang Wang UT-Austin &Kai Wang Tencent Hy &Yuzhang Shang University of Central Florida"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

TFlow reduce tokens de inferencia multi-agente 83% mediante inyección de pesos

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.