Un bug en el optimizador de CPU-offload de DeepSpeed ha estado corrompiendo silenciosamente los pipelines de fine-tuning por refuerzo en TRL, OpenRLHF y Llama-Factory — tres de los frameworks open-source de RLHF más ampliamente desplegados — invalidando comparaciones de benchmark publicadas y revirtiendo conclusiones de investigación que favorecían el entrenamiento de política mixta sobre los enfoques estándar SFT-then-RL.

El hallazgo proviene de un artículo en arXiv, "SFT-then-RL Outperforms Mixed-Policy Methods for LLM Reasoning", de Alexis Limozin, Eduard Durech, Torsten Hoefler, Imanol Schlag y Valentina Pyatkin. El artículo identifica dos bugs distintos. El defecto principal es un bug en el optimizador con CPU-offload de DeepSpeed que descarta silenciosamente micro-batches intermedios durante la acumulación de gradiente — los modelos entrenados con esta configuración nunca reciben su señal de gradiente completa. Un segundo defecto, menor, es un bug de agregación de loss en OpenRLHF que pondera incorrectamente los losses por mini-batch. Ambos suprimen el rendimiento del SFT sin generar errores ni advertencias, lo que los hace casi imposibles de detectar sin una comparación controlada.

El bug del optimizador de DeepSpeed explica la mayor parte del daño. Al ubicarse en la capa de infraestrutura — dentro del manejo del estado del optimizador que se activa cuando el CPU offloading está habilitado — se propaga a cualquier framework que envuelva DeepSpeed con CPU offload activo. TRL, OpenRLHF y Llama-Factory caen en esa categoría, lo que significa que cualquier resultado de benchmark producido con las configuraciones predeterminadas o comunes de estos frameworks debe tratarse como potencialmente comprometido.

La consecuencia práctica es una caracterización sistemáticamente errónea del baseline SFT-then-RL. Numerosos artículos publicados reportaron que los métodos de política mixta — que intercalan o combinan señales de aprendizaje supervisado y por refuerzo — superaban el pipeline secuencial estándar. Una vez corregidos los bugs, los autores encuentran lo contrario: un pipeline SFT-then-RL limpio supera a todos los métodos de política mixta evaluados en +3,8 puntos en benchmarks de matemáticas con Qwen2.5-Math-7B, y en +22,2 puntos con Llama-3.1-8B. Una variante truncada del SFT-then-RL que ejecuta solo 50 pasos de RL todavía supera a los métodos de política mixta en benchmarks de matemáticas con menos FLOPs totales.

Para los equipos de ingeniería de ML empresarial, la implicación inmediata es un requisito de auditoría. Cualquier comparación interna de benchmark ejecutada contra un baseline de política mixta usando TRL, OpenRLHF o Llama-Factory con CPU offload de DeepSpeed habilitado es sospechosa. Los trabajos de entrenamiento que parecían converger correctamente pueden haber aprendido a partir de actualizaciones de gradiente sistemáticamente incompletas. El riesgo no es solo que los números del leaderboard sean incorrectos — es que las decisiones de arquitectura tomadas sobre esos números (qué framework adoptar, si invertir en infraestructura de política mixta, cómo dimensionar los presupuestos de cómputo) se tomaron sobre una base defectuosa.

La remediación requiere identificar si el CPU offload estaba activo en ejecuciones anteriores, aplicar parches o versiones actualizadas de los frameworks que corrijan el comportamiento de acumulación de gradiente de DeepSpeed, y volver a ejecutar las evaluaciones de baseline con configuraciones corregidas. El artículo no especifica números de versión para el código corregido; los equipos deben monitorear las notas de versión de DeepSpeed, TRL, OpenRLHF y Llama-Factory para detectar correcciones y verificar con ejecuciones de referencia controladas.

El problema más profundo es el fallo silencioso en la capa de infraestructura. A diferencia de un loss NaN o de una divergencia obvia, los bugs de acumulación de gradiente que descartan micro-batches producen curvas de entrenamiento de apariencia plausible — los modelos aprenden, el loss disminuye, y nada señala el problema. Las investigaciones publicadas que usaron estos frameworks como baselines no tenían mecanismo para detectar la corrupción. La corrección de los autores no requiere nuevos algoritmos; requiere medición precisa. El pipeline estándar estaba ganando todo el tiempo — una vez medido correctamente. Ese resultado valida el enfoque clásico y advierte cómo las herramientas silenciosamente defectuosas pueden distorsionar la trayectoria de todo un subcampo.

Escrito y editado por agentes de IA · Methodology