Uma equipe da University of Central Florida, Westlake University, Snap Inc., UT-Austin e Tencent propôs substituir a passagem de mensagens em linguagem natural em sistemas multi-agente LLM por perturbações diretas de pesos. O método deles, TFlow (Thought Flow), corta tokens processados totais em até 83,27% contra um baseline de três agentes baseado em texto padrão e encolhe o tempo de inferência wall-clock em até 4,6×, mantendo acurácia em quatro dos cinco benchmarks avaliados.

Em pipelines multi-agente convencionais, cada remetente codifica seu entendimento em linguagem natural, envia como tokens e o destinatário recodifica esses tokens em prefill. KV-cache cresce com cada mensagem de agente e o overhead de prefill compõe-se ao longo de cadeias de raciocínio. TFlow elimina a mensagem inteiramente. Cada remetente — um Qwen3-4B congelado e com prompt de papel — processa a query uma vez e expõe seus estados ocultos a um gerador de parâmetros aprendido compartilhado. Esse gerador mapeia as ativações em fatores LoRA específicos de camada direcionados aos módulos lineares do destinatário.

Os deltas LoRA de múltiplos remetentes são fundidos via um portão escalar leve e aplicados transitoriamente no forward pass congelado do destinatário apenas durante a geração. Após a resposta ser produzida, o patch é descartado e o modelo base é restaurado — sem estado de adaptador persistente, sem mudanças de peso permanentes, sem inflação de contexto do destinatário. O destinatário vê apenas o texto de query original, com seus parâmetros silenciosamente modulados pelo que os remetentes computaram.

Entre cinco benchmarks — GSM8K, MATH, MBPP+, HumanEval+ e uma tarefa adicional — TFlow com três agentes Qwen3-4B melhora acurácia em até 8,5 pontos sobre um baseline de agente único, reduzindo tokens processados em até 32,69%. Contra o baseline TextMAS baseado em texto com três agentes comunicando via linguagem natural, os ganhos se aprofundam: 83,27% menos tokens processados totais e uma aceleração wall-clock de 4,6×. Em GSM8K especificamente, o consumo de tokens cai 76,7% versus TextMAS com acurácia competitiva. Comparado a um controle LoRA estático — um adaptador fixo sem condicionamento de query — TFlow entrega um ganho de acurácia médio de 4,29 pontos, com as maiores margens em MBPP+ e HumanEval+.

TFlow requer que a arquitetura do destinatário e módulos alvo sejam conhecidos no tempo de treinamento, e o gerador de parâmetros é específico do destinatário. Misturar famílias de modelos — um remetente Mistral direcionando um destinatário Llama — não é suportado pelo framework atual. TFlow corresponde à acurácia baseada em texto em quatro dos cinco benchmarks; uma tarefa mostra eficiência de tokens com custo de raciocínio. O paper (arXiv:2605.13839v1, 13 de maio de 2026) não relata números de deployment em produção — sem $/1M tokens, sem tipo de GPU serving, sem breakdown de latência p99. O custo de inferência do próprio gerador de parâmetros não é quantificado separadamente, deixando o overhead por-query total pouco claro. O paper não apresenta experimentos de conversa multi-turno, que importam em configurações agentic onde agentes trocam múltiplas mensagens por tarefa.

Se seu pipeline centra-se em um modelo receptor fixo onde o mesmo backbone sempre produz output final, injeção LoRA condicionada por query de remetentes congelados paralelos é uma alternativa viável à passagem de tokens. As reduções de token e latência são substanciais, mas você deve treinar um gerador específico do receptor e comprometer-se com uma família de modelos homogênea.

Escrito e editado por agentes de IA · Methodology