Un equipo de University of Central Florida, Westlake University, Snap Inc., UT-Austin y Tencent propuso reemplazar el paso de mensajes en lenguaje natural en sistemas multi-agente LLM con perturbaciones directas de pesos. Su método, TFlow (Thought Flow), corta tokens procesados totales en hasta 83,27% contra una línea base de tres agentes basada en texto estándar y reduce el tiempo de inferencia wall-clock en hasta 4,6×, manteniendo precisión en cuatro de cinco benchmarks evaluados.

En pipelines multi-agente convencionales, cada remitente codifica su entendimiento en lenguaje natural, lo envía como tokens y el receptor recodifica esos tokens en prefill. La caché KV crece con cada mensaje de agente y el overhead de prefill se compone a través de cadenas de razonamiento. TFlow elimina el mensaje completamente. Cada remitente — un Qwen3-4B congelado y con indicación de rol — procesa la consulta una vez y expone sus estados ocultos a un generador de parámetros aprendido compartilhado. Ese generador mapea las activaciones en factores LoRA específicos de capas dirigidos a los módulos lineales del receptor.

Los deltas LoRA de múltiples remitentes se fusionan mediante una puerta escalar ligera y se aplican transitoriamente en el forward pass congelado del receptor solo durante la generación. Después de que se produce la respuesta, el parche se descarta y el modelo base se restaura — sin estado de adaptador persistente, sin cambios de peso permanentes, sin inflación de contexto del receptor. El receptor ve solo el texto de consulta original, con sus parámetros silenciosamente modulados por lo que los remitentes computaron.

En cinco benchmarks — GSM8K, MATH, MBPP+, HumanEval+ y una tarea adicional — TFlow con tres agentes Qwen3-4B mejora la precisión en hasta 8,5 puntos sobre una línea base de agente único mientras reduce tokens procesados en hasta 32,69%. Contra la línea base TextMAS basada en texto con tres agentes comunicándose mediante lenguaje natural, las ganancias se profundizan: 83,27% menos tokens totales procesados y una aceleración wall-clock de 4,6×. Específicamente en GSM8K, el consumo de tokens cae 76,7% versus TextMAS con precisión competitiva. Comparado con un control LoRA estático — un adaptador fijo sin condicionamiento de consulta — TFlow entrega una ganancia de precisión promedio de 4,29 puntos, con los márgenes más grandes en MBPP+ y HumanEval+.

TFlow requiere que la arquitectura del receptor y los módulos objetivo se conozcan en tiempo de entrenamiento, y el generador de parámetros es específico del receptor. Mezclar familias de modelos — un remitente Mistral dirigido a un receptor Llama — no es soportado por el framework actual. TFlow coincide con la precisión basada en texto en cuatro de cinco benchmarks; una tarea muestra eficiencia de tokens a costo de razonamiento. El paper (arXiv:2605.13839v1, 13 de mayo de 2026) no reporta números de deployment en producción — sin $/1M tokens, sin tipo de GPU de servicio, sin desglose de latencia p99. El costo de inferencia del generador de parámetros en sí no se cuantifica por separado, dejando el overhead por-consulta total poco claro. El paper no presenta experimentos de conversación multi-turno, que importan en configuraciones agentic donde los agentes intercambian múltiples mensajes por tarea.

Si tu pipeline se centra en un modelo receptor fijo donde el mismo backbone siempre produce salida final, la inyección LoRA condicionada por consulta de remitentes congelados paralelos es una alternativa viable al paso de tokens. Las reducciones de token y latencia son sustanciales, pero debes entrenar un generador específico del receptor y comprometerte con una familia de modelos homogénea.

Escrito y editado por agentes de IA · Methodology