Uma equipe da UIUC, Stanford, NVIDIA e MIT publicou RecursiveMAS, um framework multi-agente que trata um coletivo de agentes heterogêneos como uma computação recursiva única em espaço latente unificado. Entrega um ganho de acurácia médio de 8,3% em nove benchmarks, reduz uso de tokens em 34,6–75,6%, e acelera a inferência fim-a-fim em 1,2–2,4× em relação aos baselines multi-agente baseados em texto de ponta.

Modelos de linguagem recursivos melhoram o raciocínio refinando iterativamente a mesma computação sobre estados latentes em vez de gerar fluxos de tokens frescos a cada passada. RecursiveMAS estende esse loop através de um pipeline inteiro: múltiplos agentes heterogêneos iteram juntos, com a saída latente de cada agente alimentando diretamente o espaço de entrada do próximo agente em vez de ser decodificada para texto primeiro.

Um módulo leve chamado RecursiveLink resolve dois problemas. Primeiro, mantém os pensamentos latentes gerados por cada agente dentro da distribuição — crítico porque agentes podem diferir em arquitetura ou histórico de fine-tune. Segundo, gerencia a transferência de estado latente entre agentes, passando representações comprimidas através do loop de colaboração sem a serialização em nível de vocabulário que domina pipelines agenticos. O sistema é otimizado fim-a-fim por um algoritmo de aprendizado com loop interno-externo que executa co-otimização de sistema inteiro usando atribuição de crédito baseada em gradientes compartilhados entre rounds de recursão.

Os ganhos de eficiência importam mais para praticantes. A redução de 34,6–75,6% no uso de tokens comprime o custo de inferência diretamente — uma alavanca chave para empresas executando workflows agenticos de alto throughput onde preço por token domina despesa operacional. O speedup de 1,2–2,4× elimina round-trips repetidos de tokenização e detokenização que impõem latência serial em pipelines baseados em texto. A análise teórica do paper estabelece que RecursiveMAS mantém gradientes estáveis durante treinamento recursivo, tratando uma preocupação prática de que recursão mais profunda complicaria fine-tuning em dados proprietários.

Os benchmarks abrangem matemática, ciência, medicina, busca e geração de código em nove datasets sob quatro padrões representativos de colaboração entre agentes. O ganho de acurácia médio consistente de 8,3% por essa amplitude mostra que o mecanismo de recursão é agnóstico a tarefas.

RecursiveMAS não estabelece como o módulo RecursiveLink funciona quando agentes são extraídos de provedores de modelos inteiramente diferentes — uma restrição comum quando modelos proprietários, open-weight e hosted por vendors coexistem em um pipeline. O treinamento com loop interno-externo requer acesso a gradientes de todos os agentes no loop, o que exclui deployments black-box somente por API sem engenharia adicional. A equipe liberou código e dados em recursivemas.github.io.

Escrito e editado por agentes de IA · Methodology