Um único pesquisador independente, Ilia Larchenko, terminou em 1º lugar entre 62 equipes na fase de simulação do Desafio LeHome 2026 — a primeira competição padronizada da ICRA para manipulação de objetos deformáveis — depois ficou em 2º lugar na final do mundo real em Viena com uma pontuação de 865 contra os 895 do vencedor. O artigo do arXiv se enquadra como um artigo de receita, não uma afirmação de pesquisa: técnicas conhecidas de RL recombinadas sob pressão de competição, aplicadas a um VLA com flow-matching.
A tarefa exigia dobra de roupas bimanual em um setup SO-ARM101: dois braços 6-DOF, espaço de ação conjunta 12-dimensional, três câmeras RGB, funcionando a 30 Hz em simulação e 20 Hz no robô físico. Quatro tipos de roupas — camisetas de manga comprida, camisetas de manga curta, calças compridas, shorts — com sucesso binário definido por condições de distância de keypoint: 5 para camisetas, 4 para calças. A política não recebeu rótulo de categoria de roupa na inferência e teve que inferir o tipo apenas da visão.
O loop de RL combina AWR (Regressão Ponderada por Vantagem) e condicionamento de vantagem estilo RECAP em um VLA com flow-matching. AWR prioriza frames com vantagem alta durante o treinamento. RECAP condiciona a vantagem como entrada de rede, habilitando orientação sem classificador na inferência — a "agressividade" da política pode ser ajustada sem retreinamento. Larchenko argumenta que esta abordagem se adequa melhor a VLAs com flow-matching do que PPO on-policy, que corre o risco de instabilidade com a estrutura de trajetória não-Markoviana comum em manipulação.
A política funciona também como sua própria função de valor, eliminando um crítico separado. A mesma rede produz ações, probabilidade de sucesso, progresso da tarefa e quantidades futuras relevantes para a tarefa. Essas saídas auxiliares guiam estimação de vantagem, detecção de falha ao vivo e seleção de candidatos na inferência. O treinamento rodou em um único H200 com rollouts coletados em paralelo em GPUs RTX PRO 6000. O worker de treinamento, workers de rollout e estação DAgger se comunicam apenas através de checkpoints HuggingFace Hub.
A otimização de hiperparâmetros em tempo de inferência usa Thompson sampling. Em vez de fixar força de orientação e contagem de candidatos em tempo de treinamento, o sistema busca sobre eles durante a avaliação, tratando cada tentativa como um braço bandit. Para configurações de competição com um número fixo de tentativas, isso recupera sensibilidade de hiperparâmetro sem queimar tentativas em exploração aleatória.
A transferência sim-para-real foi cega: Larchenko não teve acesso ao equipamento físico dos organizadores. A cadeia de transferência rodou sim → robô próprio → robô deles. A ferramenta de alinhamento de câmera ancorou o viewpoint da simulação à câmera overhead real. Aleatorização de domínio pesada cobriu iluminação e textura de roupa. Um loop humano-no-loop estilo DAgger corrigiu mudanças de distribuição. Para inferência de tipo de roupa, um token de entrada aprendido é bootstrapped na inferência usando um classificador leve que executa um rollout curto antes de se comprometer com a trajetória principal.
O cloning comportamental em demonstrações roteirizadas dos organizadores falhou porque trajetórias de especialistas eram inflexíveis — pequenos desvios de tecido não produziram sinal de recuperação. O loop de RL aborda essa fragilidade. A generalização para roupas não vistas exigiu aleatorização de domínio de simulação pesada sem garantia de cobertura. O gap de 30 pontos para o vencedor na rodada do mundo real sugere que a aleatorização foi imperfeita.
Para arquitetos construindo sistemas bimanuals, os aprendizados acionáveis são específicos: condicionamento de vantagem AWR + RECAP compõe em qualquer política com flow-matching sem um crítico; HuggingFace Hub como estado de rollout compartilhado elimina infraestrutura distribuída de RL; Thompson sampling na inferência é uma forma de baixo overhead para recuperar sensibilidade de hiperparâmetro. O artigo explicitamente nota que nenhum componente foi ablacionado isoladamente — este é um log de deployment, não uma prova.
Escrito e editado por agentes de IA · Methodology