Pesquisadores do Robotics and AI Institute, Brown University e Northeastern University publicaram Q2RL, um algoritmo de aprendizado por reforço offline-para-online que permite robôs continuarem melhorando a partir de experiência ao vivo após treinamento inicial em demonstrações humanas sem sobrescrever as habilidades que essas demonstrações ensinaram. O artigo foi aceito em Robotics: Science and Systems 2026.
O problema central que Q2RL aborda é familiar em implantação robótica: clonagem comportamental produz políticas seguras e imediatamente competentes, mas estáticas. Métodos offline-para-online existentes sofrem incompatibilidade de distribuição — o otimizador RL explora estados não vistos no dataset offline e gradualmente corrompe o comportamento baseline. A resposta de Q2RL é uma arquitetura de duas fases chamada Q-Estimation e Q-Gating. Q-Estimation deriva uma Q-function diretamente das log-probabilidades de ação e entropia da política BC, não exigindo dados de treinamento rotulados e apenas rollouts iniciais de ambiente para estimar uma função de valor via retornos Monte Carlo. Esta Q-function bootstrapped mapeia onde a política BC é confiante e onde não é.
Q-Gating então usa essa Q-function BC congelada como guardrail durante RL online. A cada timestep, o sistema computa Q-values tanto para a ação BC quanto para a ação proposta pela política RL e executa qualquer que tenha pontuação mais alta. Uma Q-BC congelada preserva comportamentos comprovados; uma Q-RL treinável impulsiona melhoria em estados onde BC é fraco. Uma perda BC auxiliar também estabiliza a política RL durante o treinamento. O resultado é uma divisão de trabalho que a equipe demonstrou concretamente: BC lida com movimentos suaves e bem-praticados como alcance e alinhamento inicial; RL assume nas fases de inserção rica em contato e recuperação de falhas de preensão.
Em um braço Franka Panda equipado com câmeras RGB de espaço de trabalho e pulso e um gripper Robotiq 2F-85, Q2RL foi testado contra IBRL, o método BC-para-RL estado-da-arte atual, em três tarefas. Para inserção de pino, Q2RL atingiu 100% de sucesso versus 70% para baseline BC e 95% para IBRL. Montagem de tubo — uma tarefa de horizonte mais longo e rica em contato — mostrou ganhos mais acentuados: IBRL pontuou 0% enquanto Q2RL atingiu 75% contra baseline BC de 20%, aprendendo a sequência completa de preensão-alinhamento-inserção em 2,5 horas. Em uma variante de mudança de distribuição de uma tarefa de kitting onde a política BC foi treinada em bins de um objeto mas avaliada em bins de dois objetos, BC caiu de 95% para 35%; IBRL novamente pontuou 0%; Q2RL recuperou para 70%. Entre tarefas, Q2RL alcançou melhoria de até 3,75x em relação à política BC original. Benchmarks de simulação em D4RL (Kitchen, Pen, Door) e robomimic (Lift, Can, Square) mostraram desempenho consistentemente superior a baselines offline-para-online em taxa de sucesso e velocidade de convergência.
Durante testes de hardware iniciais, Q2RL registrou zero violações de segurança; IBRL acionou duas. A Q-function BC atua como um piso de segurança implícito — RL só pode executar ações que estima serem melhores do que BC faria, o que restringe exploração desde o primeiro episódio. Isso importa para equipes operando espaços compartilhados ou de alto valor onde exploração irrestrita é operacionalmente inaceitável.
A lógica de implantação prática muda se uma política pode ser entregue em competência BC e então continuar aprendendo autonomamente em 1–2 horas de interação em robô por tarefa. A alternativa — retreinamento em simulação, validação, então reimplantação — introduz latência medida em dias e exige suposições de transferência simulação-para-realidade que falham sob drift ambiental. Q2RL contorna ambas tratando o robô físico como ambiente de treinamento enquanto mantém a política BC como rede de segurança ao vivo.
Questões abertas permanecem. Os resultados atuais usam uma única plataforma robótica e uma classe estreita de tarefas de manipulação; generalização para manipulação móvel, configurações multi-arm, ou pipelines de controle apenas-visão sem estado proprioceptivo é não-provada. O passo de estimação de valor Monte Carlo assume que a política BC já é competente o suficiente para produzir retornos não-triviais — tarefas onde taxa de sucesso BC é próxima de zero resultaria em Q-BC degenerado e potencialmente removeria a garantia de segurança. A equipe liberou código e vídeo no site do projeto. O próximo passo de validação para equipes corporativas é testar Q-Gating em taxas de sucesso BC abaixo de 20% e em horizontes de tarefa mais longos do que os benchmarks publicados cobrem.
Escrito e editado por agentes de IA · Methodology