Rótulos em Linguagem Natural Superam Escalares no Aprendizado Offline de Robôs

Uma equipe propõe aprendizado por imitação com crítica linguística, permitindo que agentes aprendam com demonstrações subótimas através de feedback em linguagem natural sobre modos de falha e ações corretivas. A abordagem supera sinais de supervisão escalar e se escala para tarefas complexas.

Pesquisadores da National Taiwan University, da University of Utah e da NYCU publicaram um artigo em 1º de julho de 2026 propondo um framework de aprendizado por imitação offline que substitui sinais de supervisão escalar por linguagem natural. Duas variantes de política—LC-BC e LC-DP—superam DemoDICE, DWBC, IQL e TD3+BC em 8 tarefas de controle contínuo abrangendo navegação, gameplay e manipulação, incluindo cenários precisos de empurrar blocos robóticos.

Abordagens convencionais para aprender com demonstrações subótimas comprimem falha em um único número. Estimativas de confiança, scores de discriminador, pesos de importância e recompensas de RL offline classificam trajetórias, mas não conseguem identificar qual subobjetivo falhou, qual ajuste de movimento era necessário ou qual estágio de uma tarefa multi-etapa quebrou. Em tarefas de horizonte longo ou multimodais, essa estrutura perdida é fatal: a política aprende que algo foi ruim sem aprender por quê.

O framework de crítica linguística substitui classificação escalar por três rótulos estruturados: descrição de progresso da tarefa, classificação de otimalidade de ação em cada passo e orientação de movimento corretivo refinada. Os rótulos são gerados offline—sem interação ambiental, sem LLM ao vivo durante treinamento. A perda de crítica linguística supervisiona a política diretamente a partir de texto estruturado. Os autores provam que esse objetivo limita superiormente a lacuna de desempenho entre política especialista e aprendida sob suposições padrão de aprendizado por imitação.

LC-BC anexa a perda de crítica linguística ao clonagem comportamental; LC-DP anexa à política de difusão. Ambas se encaixam em arquiteturas existentes como substituições de perda escalar. BlockPush—empurrar dois blocos para regiões alvo—mostra a vantagem prática: rótulos de linguagem especificam qual bloco abordar primeiro, qual alvo é alcançável e como ajustar o arco de balanço. Um sinal escalar pode apenas atribuir uma recompensa maior ou menor, oferecendo nenhuma orientação sobre qual bloco abordar, qual alvo priorizar ou como corrigir o movimento.

Para equipes construindo pipelines de fine-tuning em agentes robóticos ou que jogam, a implicação é direta: anotação offline de demonstrações subótimas com rótulos em linguagem natural pode superar redes discriminadoras. Rótulos em linguagem natural são legíveis para humanos, debugáveis e carregam sinal de gradiente mais forte que escalares aprendidos.

Language Feedback Models também usaram feedback em linguagem natural para aprendizado por imitação, alcançando ganhos de 3,5–12,0% em tarefas que seguem instruções. Mas LFMs destilam feedback em um modelo treinado que classifica rollouts ao vivo durante melhoria de política. Distinção deste framework: rótulos derivam de demonstrações offline estáticas. Sem rollouts ao vivo, sem inferência em tempo de execução, sem interação ambiental durante treinamento.

Construção de rótulos em escala permanece difícil. O artigo demonstra a abordagem em 8 tarefas com estrutura definida. Gerar rótulos de alta qualidade de progresso, otimalidade e orientação corretiva para tarefas arbitrárias requer prompts LLM específicos de tarefa ou anotação humana. Os autores não relatam custo de construção de rótulos ou robustez para ruído de rótulo—ambas questões abertas antes que isso se torne prática padrão.

Se seu pipeline de fine-tuning de agente atualmente classifica demonstrações subótimas com discriminadores ou pesos de importância, trocar por rótulos em linguagem natural é uma alternativa credível, teoricamente fundamentada com ganhos demonstrados em 8 tipos de tarefas.

Sources

LC-BC and LC-DP consistently outperform DemoDICE, DWBC, IQL, and TD3+BC across 8 continuous-control tasks
"our methods consistently outperform strong imitation learning and offline reinforcement learning baselines"
arxiv.org ↗
Scalar signals cannot express intermediate reasoning about task progress, failure modes, or corrective actions
"These scalar signals are inherently limited, as they cannot explicitly express intermediate reasoning about task progress, failure modes, or corrective actions"
arxiv.org ↗
Language labels encode task progress, action optimality, and movement correction — three dimensions vs. one scalar
"Our method first constructs language labels from demonstrations that explicitly describe current progress, identify suboptimal behaviors, and provide fine-grained corrective guidance"
arxiv.org ↗
The language-critique loss is proven to upper-bound the expert-policy performance gap under standard assumptions
"We further provide a theoretical result showing that the proposed objective upper-bounds the expert performance gap under standard assumptions"
arxiv.org ↗
LC-BC attaches the language-critique loss to behavior cloning; LC-DP attaches it to a diffusion policy
"instantiate it for both behavior cloning and diffusion policies, yielding LC-BC and LC-DP"
arxiv.org ↗
In BlockPush, a scalar can only assign a higher or lower reward — language labels specify which block to approach, which target to prioritize, and how to adjust motion
"language labels can indicate which object to approach, which target to prioritize, and how to adjust the motion, rather than merely assigning a higher or lower reward"
arxiv.org ↗
Framework is fully offline — no environment interaction required during training
"an offline IL framework that adds language guidance to learning from expert and suboptimal demonstrations"
arxiv.org ↗
LFMs achieved 3.5–12.0% task-completion improvement and generalize to unseen environments through one round of adaptation
"LFMs generalize to unseen environments, improving task-completion rate by 3.5-12.0% through one round of adaptation"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Rótulos em Linguagem Natural Superam Escalares no Aprendizado Offline de Robôs

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.