RecursiveMAS reduz uso de tokens em sistemas multi-agente de 34,6% para 75,6%

Uma equipe da UIUC, Stanford, NVIDIA e MIT publicou RecursiveMAS, um framework multi-agente que trata um coletivo de agentes heterogêneos como uma computação recursiva única em espaço latente unificado. Entrega um ganho de acurácia médio de 8,3% em nove benchmarks, reduz uso de tokens em 34,6–75,6%, e acelera a inferência fim-a-fim em 1,2–2,4× em relação aos baselines multi-agente baseados em texto de ponta.

Modelos de linguagem recursivos melhoram o raciocínio refinando iterativamente a mesma computação sobre estados latentes em vez de gerar fluxos de tokens frescos a cada passada. RecursiveMAS estende esse loop através de um pipeline inteiro: múltiplos agentes heterogêneos iteram juntos, com a saída latente de cada agente alimentando diretamente o espaço de entrada do próximo agente em vez de ser decodificada para texto primeiro.

Um módulo leve chamado RecursiveLink resolve dois problemas. Primeiro, mantém os pensamentos latentes gerados por cada agente dentro da distribuição — crítico porque agentes podem diferir em arquitetura ou histórico de fine-tune. Segundo, gerencia a transferência de estado latente entre agentes, passando representações comprimidas através do loop de colaboração sem a serialização em nível de vocabulário que domina pipelines agenticos. O sistema é otimizado fim-a-fim por um algoritmo de aprendizado com loop interno-externo que executa co-otimização de sistema inteiro usando atribuição de crédito baseada em gradientes compartilhados entre rounds de recursão.

Os ganhos de eficiência importam mais para praticantes. A redução de 34,6–75,6% no uso de tokens comprime o custo de inferência diretamente — uma alavanca chave para empresas executando workflows agenticos de alto throughput onde preço por token domina despesa operacional. O speedup de 1,2–2,4× elimina round-trips repetidos de tokenização e detokenização que impõem latência serial em pipelines baseados em texto. A análise teórica do paper estabelece que RecursiveMAS mantém gradientes estáveis durante treinamento recursivo, tratando uma preocupação prática de que recursão mais profunda complicaria fine-tuning em dados proprietários.

Os benchmarks abrangem matemática, ciência, medicina, busca e geração de código em nove datasets sob quatro padrões representativos de colaboração entre agentes. O ganho de acurácia médio consistente de 8,3% por essa amplitude mostra que o mecanismo de recursão é agnóstico a tarefas.

RecursiveMAS não estabelece como o módulo RecursiveLink funciona quando agentes são extraídos de provedores de modelos inteiramente diferentes — uma restrição comum quando modelos proprietários, open-weight e hosted por vendors coexistem em um pipeline. O treinamento com loop interno-externo requer acesso a gradientes de todos os agentes no loop, o que exclui deployments black-box somente por API sem engenharia adicional. A equipe liberou código e dados em recursivemas.github.io.

Sources

RecursiveMAS delivers an average accuracy improvement of 8.3% across nine benchmarks
"RecursiveMAS consistently delivers an average accuracy improvement of 8.3%"
arxiv.org ↗
RecursiveMAS achieves 1.2×–2.4× end-to-end inference speedup versus baselines
"1.2$\times$-2.4$\times$ end-to-end inference speedup"
arxiv.org ↗
RecursiveMAS reduces token usage by 34.6%–75.6%
"34.6%-75.6% token usage reduction"
arxiv.org ↗
RecursiveMAS is evaluated across 9 benchmarks spanning mathematics, science, medicine, search, and code generation
"evaluate across 9 benchmarks spanning mathematics, science, medicine, search, and code generation"
arxiv.org ↗
The framework is instantiated under 4 representative agent collaboration patterns
"we instantiate RecursiveMAS under 4 representative agent collaboration patterns"
arxiv.org ↗
RecursiveMAS uses a RecursiveLink module enabling in-distribution latent thoughts generation and cross-agent latent state transfer
"enabling in-distribution latent thoughts generation and cross-agent latent state transfer"
arxiv.org ↗
An inner-outer loop learning algorithm performs whole-system co-optimization through shared gradient-based credit assignment across recursion rounds
"we develop an inner-outer loop learning algorithm for iterative whole-system co-optimization through shared gradient-based credit assignment across recursion rounds"
arxiv.org ↗
RecursiveMAS is more efficient than standard text-based MAS and maintains stable gradients during recursive training
"RecursiveMAS is more efficient than standard text-based MAS and maintains stable gradients during recursive training"
arxiv.org ↗
Recursive or looped language models have emerged as a new scaling axis by iteratively refining the same model computation over latent states
"Recursive or looped language models have recently emerged as a new scaling axis by iteratively refining the same model computation over latent states to deepen reasoning"
arxiv.org ↗
Code and data are released at recursivemas.github.io
"Code and Data are provided in https://recursivemas.github.io"
arxiv.org ↗
Institutional affiliations include UIUC, Stanford, NVIDIA, and MIT — no UCLA affiliation exists in the paper
"UIUC (Yang, Zou, Pan, Qiu, Tong, Zhang, He), Stanford (Zou, Lu, J. Zou), NVIDIA (Diao, Jiang), and MIT (Buehler)"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

RecursiveMAS reduz uso de tokens em sistemas multi-agente de 34,6% para 75,6%

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.