TFlow reduz tokens de inferência multi-agente em 83% via injeção de pesos

Uma equipe da University of Central Florida, Westlake University, Snap Inc., UT-Austin e Tencent propôs substituir a passagem de mensagens em linguagem natural em sistemas multi-agente LLM por perturbações diretas de pesos. O método deles, TFlow (Thought Flow), corta tokens processados totais em até 83,27% contra um baseline de três agentes baseado em texto padrão e encolhe o tempo de inferência wall-clock em até 4,6×, mantendo acurácia em quatro dos cinco benchmarks avaliados.

Em pipelines multi-agente convencionais, cada remetente codifica seu entendimento em linguagem natural, envia como tokens e o destinatário recodifica esses tokens em prefill. KV-cache cresce com cada mensagem de agente e o overhead de prefill compõe-se ao longo de cadeias de raciocínio. TFlow elimina a mensagem inteiramente. Cada remetente — um Qwen3-4B congelado e com prompt de papel — processa a query uma vez e expõe seus estados ocultos a um gerador de parâmetros aprendido compartilhado. Esse gerador mapeia as ativações em fatores LoRA específicos de camada direcionados aos módulos lineares do destinatário.

Os deltas LoRA de múltiplos remetentes são fundidos via um portão escalar leve e aplicados transitoriamente no forward pass congelado do destinatário apenas durante a geração. Após a resposta ser produzida, o patch é descartado e o modelo base é restaurado — sem estado de adaptador persistente, sem mudanças de peso permanentes, sem inflação de contexto do destinatário. O destinatário vê apenas o texto de query original, com seus parâmetros silenciosamente modulados pelo que os remetentes computaram.

Entre cinco benchmarks — GSM8K, MATH, MBPP+, HumanEval+ e uma tarefa adicional — TFlow com três agentes Qwen3-4B melhora acurácia em até 8,5 pontos sobre um baseline de agente único, reduzindo tokens processados em até 32,69%. Contra o baseline TextMAS baseado em texto com três agentes comunicando via linguagem natural, os ganhos se aprofundam: 83,27% menos tokens processados totais e uma aceleração wall-clock de 4,6×. Em GSM8K especificamente, o consumo de tokens cai 76,7% versus TextMAS com acurácia competitiva. Comparado a um controle LoRA estático — um adaptador fixo sem condicionamento de query — TFlow entrega um ganho de acurácia médio de 4,29 pontos, com as maiores margens em MBPP+ e HumanEval+.

TFlow requer que a arquitetura do destinatário e módulos alvo sejam conhecidos no tempo de treinamento, e o gerador de parâmetros é específico do destinatário. Misturar famílias de modelos — um remetente Mistral direcionando um destinatário Llama — não é suportado pelo framework atual. TFlow corresponde à acurácia baseada em texto em quatro dos cinco benchmarks; uma tarefa mostra eficiência de tokens com custo de raciocínio. O paper (arXiv:2605.13839v1, 13 de maio de 2026) não relata números de deployment em produção — sem $/1M tokens, sem tipo de GPU serving, sem breakdown de latência p99. O custo de inferência do próprio gerador de parâmetros não é quantificado separadamente, deixando o overhead por-query total pouco claro. O paper não apresenta experimentos de conversa multi-turno, que importam em configurações agentic onde agentes trocam múltiplas mensagens por tarefa.

Se seu pipeline centra-se em um modelo receptor fixo onde o mesmo backbone sempre produz output final, injeção LoRA condicionada por query de remetentes congelados paralelos é uma alternativa viável à passagem de tokens. As reduções de token e latência são substanciais, mas você deve treinar um gerador específico do receptor e comprometer-se com uma família de modelos homogênea.

Sources

TFlow reduces total processed tokens by up to 83.27% and wall-clock inference time by up to 4.6× versus a text-based three-agent baseline
"it reduces total processed tokens by up to 83.27% and the wall-clock inference time by up to 4.6×, while maintaining competitive accuracy on four of five benchmarks"
arxiv.org ↗
TFlow improves over a standalone receiver by up to 8.5 accuracy points while reducing processed tokens by up to 32.69%
"TFlow improves over a standalone receiver by up to 8.5 accuracy points across five benchmarks while reducing processed tokens by up to 32.69%"
arxiv.org ↗
On GSM8K, TFlow reduces token consumption by 76.7% versus TextMAS with competitive accuracy
"TFlow achieves accuracy competitive with TextMAS while reducing token consumption by 76.7%, substantially surpassing the single-agent baseline in both accuracy and efficiency"
arxiv.org ↗
Senders are frozen Qwen3-4B models; a learned parameter generator maps their hidden states into low-rank LoRA perturbations targeting the receiver's modules
"frozen role-prompted sender agents process the input, and a learned parameter generator maps their internal activations into low-rank LoRA perturbations targeting the receiver's modules"
arxiv.org ↗
TFlow outperforms a static LoRA baseline by 4.29 accuracy points on average, with the largest gains on MBPP+ and HumanEval+
"TFLOW achieves substantially stronger performance, outperforming Static-LoRA by 4.29 points on average, with especially clear gains on more challenging reasoning and code-oriented benchmarks such as MBPP+ and HumanEval+"
arxiv.org ↗
After generation, the LoRA patch is discarded and the base model is restored; each input induces its own temporary parameterization
"After generation, the patch is discarded, ensuring that each input induces its own temporary parameterization and that all subsequent inputs start from the same froz"
arxiv.org ↗
Authors are affiliated with University of Central Florida, Westlake University, Snap Inc., UT-Austin, and Tencent; paper published May 13, 2026
"arXiv:2605.13839v1 [cs.CL] 13 May 2026 · Wenrui Bao University of Central Florida &Huan Wang Westlake University &Jian Wang Snap Inc. Zhangyang Wang UT-Austin &Kai Wang Tencent Hy &Yuzhang Shang University of Central Florida"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

TFlow reduz tokens de inferência multi-agente em 83% via injeção de pesos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.