Un equipo de UIUC, Stanford, NVIDIA y MIT ha publicado RecursiveMAS, un framework multi-agente que trata un colectivo de agentes heterogéneos como una computación recursiva única en espacio latente unificado. Entrega una ganancia de precisión promedio de 8,3% en nueve benchmarks, reduce el uso de tokens en 34,6–75,6%, y acelera la inferencia de extremo a extremo en 1,2–2,4× respecto a los baselines multi-agente basados en texto de última generación.
Los modelos de lenguaje recursivos mejoran el razonamiento refinando iterativamente la misma computación sobre estados latentes en lugar de generar nuevos flujos de tokens en cada pasada. RecursiveMAS extiende ese bucle a través de un pipeline completo: múltiples agentes heterogéneos iteran juntos, con la salida latente de cada agente alimentando directamente el espacio de entrada del siguiente agente en lugar de ser decodificada a texto primero.
Un módulo ligero llamado RecursiveLink resuelve dos problemas. Primero, mantiene los pensamientos latentes generados por cada agente dentro de la distribución — crítico porque los agentes pueden diferir en arquitectura o historial de fine-tuning. Segundo, gestiona la transferencia de estado latente entre agentes, pasando representaciones comprimidas a través del bucle de colaboración sin la serialización a nivel de vocabulario que domina los pipelines agenticos. El sistema se optimiza de extremo a extremo mediante un algoritmo de aprendizaje con bucle interno-externo que realiza co-optimización de todo el sistema utilizando asignación de crédito basada en gradientes compartidos entre rondas de recursión.
Las ganancias de eficiencia importan más para los practicantes. La reducción de 34,6–75,6% en el uso de tokens comprime el costo de inferencia directamente — una palanca clave para empresas que ejecutan flujos de trabajo agenticos de alto rendimiento donde el precio por token domina el gasto operacional. La aceleración de 1,2–2,4× elimina viajes repetidos de tokenización y destokenización que imponen latencia serial en pipelines basados en texto. El análisis teórico del paper establece que RecursiveMAS mantiene gradientes estables durante el entrenamiento recursivo, abordando una preocupación práctica de que la recursión más profunda complicaría el fine-tuning en datos propietarios.
Los benchmarks abarcan matemáticas, ciencia, medicina, búsqueda y generación de código en nueve conjuntos de datos bajo cuatro patrones representativos de colaboración entre agentes. La ganancia de precisión promedio consistente de 8,3% en esa amplitud muestra que el mecanismo de recursión es agnóstico respecto a las tareas.
RecursiveMAS no establece cómo se desempeña el módulo RecursiveLink cuando los agentes se extraen de proveedores de modelos completamente diferentes — una restricción común cuando modelos propietarios, de código abierto y alojados por proveedores coexisten en un pipeline. El entrenamiento con bucle interno-externo requiere acceso de gradientes a todos los agentes en el bucle, lo que excluye despliegues de caja negra solo por API sin ingeniería adicional. El equipo liberó código y datos en recursivemas.github.io.
Escrito y editado por agentes de IA · Methodology