Marco Basado en SHAP Cuantifica el Impacto de la Configuración de RL en Robótica

Investigadores del Fraunhofer Institute for Applied Information Technology FIT y la University of Cologne publicaron el primer marco usando SHAP (SHapley Additive exPlanations) para cuantificar cómo las opciones de algoritmo e hiperparámetros impulsan los gaps de generalización en reinforcement learning. El trabajo aborda directamente las fallas de transferencia Sim2Real que descarrilan implementaciones de robótica en producción.

El desempeño del modelo de RL depende fuertemente de las opciones de configuración, pero los equipos carecen de un método fundamentado para determinar qué configuraciones impulsan la varianza entre entornos. Investigaciones previas identificaron el gap; este marco mide la contribución de cada configuración. El equipo entrenó grandes cantidades de modelos de RL con configuraciones muestreadas sistemáticamente, los evaluó en entornos de entrenamiento y prueba mantenidos separados, y luego aplicó SHAP para extraer patrones de contribución — tratando los parámetros de configuración como "features" cuyos efectos marginales pueden ser clasificados y agregados.

La configuración experimental usa cuatro pares de tareas estandarizadas de locomoción robótica de Gymnasium, ejecutadas bidireccionales entre simuladores de física MuJoCo y PyBullet. La discrepancia de engine de física entre los dos sirve como un proxy controlado y reproducible para el gap Sim2Real sin necesidad de hardware físico. Las políticas de RL son arquitecturas de Multi-Layer Perceptron en el rango de millones de parámetros — deliberadamente lightweight comparadas con modelos de escala LLM, haciéndolas rápidas para entrenar en masa pero notoriamente frágiles ante cambios de entorno. El codebase está disponible públicamente en https://github.com/engineerkong/SHAP-RLROBO.

Para equipos de IA empresarial y robótica, el valor práctico es un flujo de trabajo sistemático de selección de configuración en lugar de otro algoritmo. Los equipos que construyen agentes de RL implementados en automatización de almacenes, robótica quirúrgica o inspección autónoma típicamente queman compute significativo en búsquedas manuales de hiperparámetros sin base teórica para priorización. La selección guiada por SHAP reemplaza ese ciclo de ensayo y error con orientación clasificada y específica de la tarea derivada de experimentos anteriores. El marco está diseñado para ser modular y reproducible, adaptable a entornos propietarios y conjuntos de tareas personalizados sin reconstrucción desde cero.

La investigación revela patrones de interacción entre configuraciones que los análisis de una sola variable pierden. La tasa de aprendizaje es el hiperparámetro canónico que los equipos ajustan, pero la descomposición SHAP del trabajo revela cómo la elección de algoritmo y múltiples hiperparámetros interactúan para producir el gap de generalización. El análisis entre tareas del marco muestra que ciertos impactos de configuración son consistentes en diversas tareas, lo que importa para los equipos que administran múltiples plataformas robóticas bajo infraestructura de entrenamiento compartida.

Las advertencias son sustanciales. El alcance del benchmark — cuatro pares de tareas, dos simuladores — valida la metodología pero es estrecho en relación con la heterogeneidad de la robótica en producción. Los resultados de hardware físico no están incluidos; la transferencia de MuJoCo a PyBullet es un proxy razonable de Sim2Sim pero no un sustituto para validación Sim2Real a escala. Las cifras específicas de mejora de desempeño cuantitativo de la sección de resultados no fueron accesibles para verificación independiente en el momento de la publicación. El enfoque también requiere que los equipos ejecuten suficientes experimentos de configuración para construir un corpus de entrenamiento SHAP significativo — un requisito de compute no trivial para organizaciones sin infraestructura de RL dedicada.

Los autores afirman que es el primer marco basado en SHAP aplicado a la generalización de RL en robótica. El lanzamiento de código abierto reduce las barreras de adopción. Para equipos que ya ejecutan RL en simulación e impactan con muros de transferencia, el marco ofrece una capa de diagnóstico que es considerablemente más barata que rediseñar el entorno de entrenamiento o cambiar algoritmos.

Sources

First framework to use SHAP to quantitatively decompose how algorithm and hyperparameter choices drive RL generalization gaps across robotic environments
"To the best of our knowledge, this is the first work to leverage SHAP for explaining and guiding RL configuration patterns to improve generalization across robotic environments"
arxiv.org ↗
Experiment uses four pairs of standardized robotic tasks from Gymnasium across MuJoCo and PyBullet physics engines bidirectionally
"we implement our framework on four pairs of standardized robotic tasks from Gymnasium across MuJoCo and PyBullet physics engines bidirectionally, where the physics gap serves as a controlled proxy analogous to the Sim2Real gap"
arxiv.org ↗
RL models are Multi-Layer Perceptron policies at the million-parameter scale, significantly smaller than modern LLMs
"RL models are typically built on lightweight policies (e.g., Multi-Layer Perceptron policies at the million-parameter scale), making them significantly smaller than modern Large Language Models (LLMs)"
arxiv.org ↗
MuJoCo-to-PyBullet transfer used as a controlled proxy for the Sim2Real gap
"the physics gap serves as a controlled proxy analogous to the Sim2Real gap"
arxiv.org ↗
Framework code is publicly available at https://github.com/engineerkong/SHAP-RLROBO
"The code for our framework and experiments is available at https://github.com/engineerkong/SHAP-RLROBO"
arxiv.org ↗
RL model performance is highly sensitive to algorithm and hyperparameter configurations, and generalization gaps across environments complicate real-world deployment
"model performance remains highly sensitive to algorithm and hyperparameter configurations, while generalization gaps across environments complicate real-world deployment"
arxiv.org ↗
The relative contribution of specific configurations to the generalization gap had not previously been quantitatively decomposed
"the relative contribution of specific configurations to the generalization gap has not been quantitatively decomposed and systematically leveraged for configuration selection"
arxiv.org ↗
Research is from Fraunhofer Institute for Applied Information Technology FIT and University of Cologne
"Fraunhofer Institute for Applied Information Technology FIT, Germany ... University of Cologne, Germany"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Marco Basado en SHAP Cuantifica el Impacto de la Configuración de RL en Robótica

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.