Un investigador independiente solitario, Ilia Larchenko, terminó en 1º lugar entre 62 equipos en la fase de simulación del Desafío LeHome 2026 — la primera competencia estandarizada de ICRA para manipulación de objetos deformables — y luego quedó en 2º lugar en la final del mundo real en Viena con una puntuación de 865 contra los 895 del ganador. El paper de arXiv se enmarca a sí mismo como un paper de receta, no una afirmación de investigación: técnicas conocidas de RL recombinadas bajo presión de competencia, aplicadas a un VLA con flow-matching.

La tarea requería doblado de ropa bimanual en un setup SO-ARM101: dos brazos 6-DOF, espacio de acción conjunta 12-dimensional, tres cámaras RGB, funcionando a 30 Hz en simulación y 20 Hz en el robot físico. Cuatro tipos de prendas — camisetas de manga larga, camisetas de manga corta, pantalones largos, shorts — con éxito binario definido por condiciones de distancia de keypoint: 5 para camisetas, 4 para pantalones. La política no recibió etiqueta de categoría de prenda en la inferencia y tuvo que inferir el tipo únicamente desde la visión.

El loop de RL combina AWR (Regresión Ponderada por Ventaja) y acondicionamiento de ventaja estilo RECAP en un VLA con flow-matching. AWR prioriza frames de alta ventaja durante el entrenamiento. RECAP acondiciona la ventaja como entrada de red, habilitando guía libre de clasificador en la inferencia — la "agresividad" de la política se puede ajustar sin reentrenamiento. Larchenko argumenta que este enfoque se adapta mejor a VLAs con flow-matching que a PPO on-policy, que corre el riesgo de inestabilidad con la estructura de trayectoria no-Markoviana común en manipulación.

La política funciona también como su propia función de valor, eliminando un crítico separado. La misma red emite acciones, probabilidad de éxito, progreso de tarea y cantidades futuras relevantes para la tarea. Estas salidas auxiliares impulsan estimación de ventaja, detección de fallo en vivo y selección de candidatos en la inferencia. El entrenamiento se ejecutó en una única H200 con rollouts recopilados en paralelo en GPUs RTX PRO 6000. El worker de entrenamiento, workers de rollout y estación DAgger se comunican únicamente a través de checkpoints de HuggingFace Hub.

La optimización de hiperparámetros en tiempo de inferencia utiliza Thompson sampling. En lugar de fijar la fuerza de guía y el conteo de candidatos en tiempo de entrenamiento, el sistema busca sobre ellos durante la evaluación, tratando cada intento como un brazo bandit. Para configuraciones de competencia con un número fijo de intentos, esto recupera sensibilidad de hiperparámetros sin gastar intentos en exploración aleatoria.

La transferencia sim-a-real fue ciega: Larchenko no tuvo acceso al equipo físico de los organizadores. La cadena de transferencia corrió sim → robot propio → su robot. La herramienta de alineación de cámara ancoró el viewpoint de simulación a la cámara overhead real. Aleatorización de dominio pesada cubrió iluminación y textura de prenda. Un loop humano-en-el-bucle estilo DAgger parcheó cambios de distribución. Para inferencia de tipo de prenda, un token de entrada aprendido se bootstrap en la inferencia usando un clasificador ligero que ejecuta un rollout corto antes de comprometerse con la trayectoria principal.

El clonado de comportamiento en demostraciones con guion de los organizadores fracasó porque las trayectorias de expertos eran inflexibles — pequeñas desviaciones de tela no produjeron señal de recuperación. El loop de RL aborda esa fragilidad. La generalización a prendas no vistas requirió aleatorización de dominio de simulación pesada sin garantía de cobertura. La brecha de 30 puntos con respecto al ganador en la ronda del mundo real sugiere que la aleatorización fue imperfecta.

Para arquitectos que construyen sistemas bimanual, los aprendizajes accionables son específicos: acondicionamiento de ventaja AWR + RECAP se compone en cualquier política con flow-matching sin un crítico; HuggingFace Hub como estado de rollout compartido elimina infraestructura distribuida de RL; Thompson sampling en la inferencia es una forma de bajo overhead para recuperar sensibilidad de hiperparámetros. El paper explícitamente nota que ningún componente fue ablacionado de forma aislada — este es un registro de despliegue, no una prueba.

Escrito y editado por agentes de IA · Methodology