Etiquetas en Lenguaje Natural Superan Escalares en Aprendizaje Offline de Robots

Un equipo propone aprendizaje por imitación con crítica lingüística, permitiendo que los agentes aprendan de demostraciones subóptimas a través de retroalimentación en lenguaje natural sobre modos de falla y acciones correctivas. El enfoque supera señales de supervisión escalar y se escala a tareas complejas.

Investigadores de National Taiwan University, University of Utah y NYCU publicaron un artículo el 1 de julio de 2026 proponiendo un marco de aprendizaje por imitación offline que reemplaza señales de supervisión escalar con lenguaje natural. Dos variantes de política—LC-BC y LC-DP—superan a DemoDICE, DWBC, IQL y TD3+BC en 8 tareas de control continuo abarcando navegación, gameplay y manipulación, incluyendo escenarios precisos de empuje de bloques robóticos.

Los enfoques convencionales para aprender de demostraciones subóptimas comprimen el fracaso en un único número. Las estimaciones de confianza, puntuaciones discriminantes, pesos de importancia y recompensas de RL offline clasifican trayectorias pero no pueden identificar qué subobjetivo falló, qué ajuste de movimiento era necesario, o qué etapa de una tarea multipasos se rompió. En tareas de horizonte largo o multimodales, esta estructura perdida es fatal: la política aprende que algo fue malo sin aprender por qué.

El marco de crítica lingüística reemplaza la clasificación escalar con tres etiquetas estructuradas: descripción del progreso de la tarea, clasificación de optimalidad de acciones en cada paso y orientación de movimiento correctivo refinada. Las etiquetas se generan offline—sin interacción ambiental, sin LLM en vivo durante el entrenamiento. La pérdida de crítica lingüística supervisa la política directamente desde texto estructurado. Los autores demuestran que este objetivo limita superiormente la brecha de desempeño entre la política experta y la aprendida bajo suposiciones estándar de aprendizaje por imitación.

LC-BC adjunta la pérdida de crítica lingüística al clonado comportamental; LC-DP lo adjunta a política de difusión. Ambas se insertan en arquitecturas existentes como reemplazos de pérdida escalar. BlockPush—empujar dos bloques hacia regiones objetivo—demuestra la ventaja práctica: las etiquetas lingüísticas especifican qué bloque abordar primero, qué objetivo es alcanzable y cómo ajustar el arco de balanceo. Una señal escalar solo puede asignar una recompensa mayor o menor, sin proporcionar orientación sobre qué bloque abordar, qué objetivo priorizar o cómo corregir el movimiento.

Para equipos construyendo pipelines de fine-tuning en agentes robóticos o de juego, la implicación es directa: la anotación offline de demostraciones subóptimas con etiquetas en lenguaje natural puede superar a las redes discriminantes. Las etiquetas en lenguaje natural son legibles para humanos, depurables y llevan una señal de gradiente más fuerte que escalares aprendidos.

Language Feedback Models también utilizaron retroalimentación en lenguaje natural para aprendizaje por imitación, logrando ganancias de 3,5–12,0% en tareas de seguimiento de instrucciones. Pero los LFMs destilan la retroalimentación en un modelo entrenado que puntúa rollouts en vivo durante la mejora de política. La distinción de este marco: las etiquetas se derivan de demostraciones offline estáticas. Sin rollouts en vivo, sin inferencia en tiempo de ejecución, sin interacción ambiental durante el entrenamiento.

La construcción de etiquetas a escala sigue siendo difícil. El artículo demuestra el enfoque en 8 tareas con estructura definida. Generar etiquetas de alta calidad de progreso, optimalidad y orientación correctiva para tareas arbitrarias requiere indicaciones específicas de tareas para LLM o anotación humana. Los autores no reportan costo de construcción de etiquetas o robustez al ruido de etiquetas—ambas preguntas abiertas antes de que esto se convierta en práctica estándar.

Si su pipeline de fine-tuning de agente actualmente puntúa demostraciones subóptimas con discriminantes o pesos de importancia, cambiar a etiquetas en lenguaje natural es una alternativa creíble y teóricamente fundamentada con ganancias demostrables en 8 tipos de tareas.

Sources

LC-BC and LC-DP consistently outperform DemoDICE, DWBC, IQL, and TD3+BC across 8 continuous-control tasks
"our methods consistently outperform strong imitation learning and offline reinforcement learning baselines"
arxiv.org ↗
Scalar signals cannot express intermediate reasoning about task progress, failure modes, or corrective actions
"These scalar signals are inherently limited, as they cannot explicitly express intermediate reasoning about task progress, failure modes, or corrective actions"
arxiv.org ↗
Language labels encode task progress, action optimality, and movement correction — three dimensions vs. one scalar
"Our method first constructs language labels from demonstrations that explicitly describe current progress, identify suboptimal behaviors, and provide fine-grained corrective guidance"
arxiv.org ↗
The language-critique loss is proven to upper-bound the expert-policy performance gap under standard assumptions
"We further provide a theoretical result showing that the proposed objective upper-bounds the expert performance gap under standard assumptions"
arxiv.org ↗
LC-BC attaches the language-critique loss to behavior cloning; LC-DP attaches it to a diffusion policy
"instantiate it for both behavior cloning and diffusion policies, yielding LC-BC and LC-DP"
arxiv.org ↗
In BlockPush, a scalar can only assign a higher or lower reward — language labels specify which block to approach, which target to prioritize, and how to adjust motion
"language labels can indicate which object to approach, which target to prioritize, and how to adjust the motion, rather than merely assigning a higher or lower reward"
arxiv.org ↗
Framework is fully offline — no environment interaction required during training
"an offline IL framework that adds language guidance to learning from expert and suboptimal demonstrations"
arxiv.org ↗
LFMs achieved 3.5–12.0% task-completion improvement and generalize to unseen environments through one round of adaptation
"LFMs generalize to unseen environments, improving task-completion rate by 3.5-12.0% through one round of adaptation"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Etiquetas en Lenguaje Natural Superan Escalares en Aprendizaje Offline de Robots

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.