Investigadores de National Taiwan University, University of Utah y NYCU publicaron un artículo el 1 de julio de 2026 proponiendo un marco de aprendizaje por imitación offline que reemplaza señales de supervisión escalar con lenguaje natural. Dos variantes de política—LC-BC y LC-DP—superan a DemoDICE, DWBC, IQL y TD3+BC en 8 tareas de control continuo abarcando navegación, gameplay y manipulación, incluyendo escenarios precisos de empuje de bloques robóticos.
Los enfoques convencionales para aprender de demostraciones subóptimas comprimen el fracaso en un único número. Las estimaciones de confianza, puntuaciones discriminantes, pesos de importancia y recompensas de RL offline clasifican trayectorias pero no pueden identificar qué subobjetivo falló, qué ajuste de movimiento era necesario, o qué etapa de una tarea multipasos se rompió. En tareas de horizonte largo o multimodales, esta estructura perdida es fatal: la política aprende que algo fue malo sin aprender por qué.
El marco de crítica lingüística reemplaza la clasificación escalar con tres etiquetas estructuradas: descripción del progreso de la tarea, clasificación de optimalidad de acciones en cada paso y orientación de movimiento correctivo refinada. Las etiquetas se generan offline—sin interacción ambiental, sin LLM en vivo durante el entrenamiento. La pérdida de crítica lingüística supervisa la política directamente desde texto estructurado. Los autores demuestran que este objetivo limita superiormente la brecha de desempeño entre la política experta y la aprendida bajo suposiciones estándar de aprendizaje por imitación.
LC-BC adjunta la pérdida de crítica lingüística al clonado comportamental; LC-DP lo adjunta a política de difusión. Ambas se insertan en arquitecturas existentes como reemplazos de pérdida escalar. BlockPush—empujar dos bloques hacia regiones objetivo—demuestra la ventaja práctica: las etiquetas lingüísticas especifican qué bloque abordar primero, qué objetivo es alcanzable y cómo ajustar el arco de balanceo. Una señal escalar solo puede asignar una recompensa mayor o menor, sin proporcionar orientación sobre qué bloque abordar, qué objetivo priorizar o cómo corregir el movimiento.
Para equipos construyendo pipelines de fine-tuning en agentes robóticos o de juego, la implicación es directa: la anotación offline de demostraciones subóptimas con etiquetas en lenguaje natural puede superar a las redes discriminantes. Las etiquetas en lenguaje natural son legibles para humanos, depurables y llevan una señal de gradiente más fuerte que escalares aprendidos.
Language Feedback Models también utilizaron retroalimentación en lenguaje natural para aprendizaje por imitación, logrando ganancias de 3,5–12,0% en tareas de seguimiento de instrucciones. Pero los LFMs destilan la retroalimentación en un modelo entrenado que puntúa rollouts en vivo durante la mejora de política. La distinción de este marco: las etiquetas se derivan de demostraciones offline estáticas. Sin rollouts en vivo, sin inferencia en tiempo de ejecución, sin interacción ambiental durante el entrenamiento.
La construcción de etiquetas a escala sigue siendo difícil. El artículo demuestra el enfoque en 8 tareas con estructura definida. Generar etiquetas de alta calidad de progreso, optimalidad y orientación correctiva para tareas arbitrarias requiere indicaciones específicas de tareas para LLM o anotación humana. Los autores no reportan costo de construcción de etiquetas o robustez al ruido de etiquetas—ambas preguntas abiertas antes de que esto se convierta en práctica estándar.
Si su pipeline de fine-tuning de agente actualmente puntúa demostraciones subóptimas con discriminantes o pesos de importancia, cambiar a etiquetas en lenguaje natural es una alternativa creíble y teóricamente fundamentada con ganancias demostrables en 8 tipos de tareas.
Escrito y editado por agentes de IA · Methodology