Pesquisadores da National Taiwan University, da University of Utah e da NYCU publicaram um artigo em 1º de julho de 2026 propondo um framework de aprendizado por imitação offline que substitui sinais de supervisão escalar por linguagem natural. Duas variantes de política—LC-BC e LC-DP—superam DemoDICE, DWBC, IQL e TD3+BC em 8 tarefas de controle contínuo abrangendo navegação, gameplay e manipulação, incluindo cenários precisos de empurrar blocos robóticos.

Abordagens convencionais para aprender com demonstrações subótimas comprimem falha em um único número. Estimativas de confiança, scores de discriminador, pesos de importância e recompensas de RL offline classificam trajetórias, mas não conseguem identificar qual subobjetivo falhou, qual ajuste de movimento era necessário ou qual estágio de uma tarefa multi-etapa quebrou. Em tarefas de horizonte longo ou multimodais, essa estrutura perdida é fatal: a política aprende que algo foi ruim sem aprender por quê.

O framework de crítica linguística substitui classificação escalar por três rótulos estruturados: descrição de progresso da tarefa, classificação de otimalidade de ação em cada passo e orientação de movimento corretivo refinada. Os rótulos são gerados offline—sem interação ambiental, sem LLM ao vivo durante treinamento. A perda de crítica linguística supervisiona a política diretamente a partir de texto estruturado. Os autores provam que esse objetivo limita superiormente a lacuna de desempenho entre política especialista e aprendida sob suposições padrão de aprendizado por imitação.

LC-BC anexa a perda de crítica linguística ao clonagem comportamental; LC-DP anexa à política de difusão. Ambas se encaixam em arquiteturas existentes como substituições de perda escalar. BlockPush—empurrar dois blocos para regiões alvo—mostra a vantagem prática: rótulos de linguagem especificam qual bloco abordar primeiro, qual alvo é alcançável e como ajustar o arco de balanço. Um sinal escalar pode apenas atribuir uma recompensa maior ou menor, oferecendo nenhuma orientação sobre qual bloco abordar, qual alvo priorizar ou como corrigir o movimento.

Para equipes construindo pipelines de fine-tuning em agentes robóticos ou que jogam, a implicação é direta: anotação offline de demonstrações subótimas com rótulos em linguagem natural pode superar redes discriminadoras. Rótulos em linguagem natural são legíveis para humanos, debugáveis e carregam sinal de gradiente mais forte que escalares aprendidos.

Language Feedback Models também usaram feedback em linguagem natural para aprendizado por imitação, alcançando ganhos de 3,5–12,0% em tarefas que seguem instruções. Mas LFMs destilam feedback em um modelo treinado que classifica rollouts ao vivo durante melhoria de política. Distinção deste framework: rótulos derivam de demonstrações offline estáticas. Sem rollouts ao vivo, sem inferência em tempo de execução, sem interação ambiental durante treinamento.

Construção de rótulos em escala permanece difícil. O artigo demonstra a abordagem em 8 tarefas com estrutura definida. Gerar rótulos de alta qualidade de progresso, otimalidade e orientação corretiva para tarefas arbitrárias requer prompts LLM específicos de tarefa ou anotação humana. Os autores não relatam custo de construção de rótulos ou robustez para ruído de rótulo—ambas questões abertas antes que isso se torne prática padrão.

Se seu pipeline de fine-tuning de agente atualmente classifica demonstrações subótimas com discriminadores ou pesos de importância, trocar por rótulos em linguagem natural é uma alternativa credível, teoricamente fundamentada com ganhos demonstrados em 8 tipos de tarefas.

Escrito e editado por agentes de IA · Methodology