Los investigadores Chu-Cheng Lin y Eugene Ie publicaron una familia de funciones de pérdida construida en el q-logaritmo de Tsallis que resuelve directamente el problema de estancamiento en cold-start en aprendizaje por refuerzo de recompensas verificables (RLVR)—la condición donde la tasa de éxito inicial del modelo en una tarea nueva es cercana a cero, común al adaptar modelos de razonamiento frontier a dominios especializados.
El paper "How Fast Should a Model Commit to Supervision?" define una función de pérdida parametrizada J_Q controlada por un único dial, q. En q=0, la pérdida es RLVR puro, el modo de explotación que la mayoría de equipos usa con algoritmos como GRPO. En q=1, se convierte en estimación de log-marginal-likelihood sobre trayectorias de razonamiento latentes. El mecanismo es un factor de amplificación escalar P_θ^{-q} que repesa cada ejemplo de entrenamiento independientemente de la tasa de aprendizaje, sin cambios en la arquitectura del modelo o inferencia.
Bajo análisis de gradient flow, RLVR puro (q=0) requiere Ω(1/p₀) iteraciones para escapar del cold start cuando la probabilidad de éxito inicial por problema p₀ es pequeña. El polo de estimación de densidad (q=1) lo reduce a Θ(log(1/p₀))—una brecha log-versus-linear que se vuelve decisiva cuando p₀ es 0.01 en un nuevo dominio. Valores intermedios de q intercambian velocidad de escape contra memorización de ruido.
El paper deriva dos estimadores de Monte Carlo para el término de amplificación intratable P_θ. Aprendizaje por Refuerzo Amplificado en Gradiente (GARL) muestrea del prior y repesa el gradiente RL estándar. Fine-Tuning con Atenuación Posterior (PAFT) remuestrea por importancia del posterior y ejecuta fine-tuning supervisado en las trayectorias remuestreadas. GARL lleva varianza menor; PAFT produce gradientes más estables durante el entrenamiento. Ambos estimadores comparten sesgo O(q / (M · P_θ^{q+1})) donde M es el número de trayectorias muestreadas.
Benchmarks en FinQA, HotPotQA y MuSiQue validaron la teoría. En condiciones de cold-start, GARL con q=0.75 escapa del estancamiento en tareas donde GRPO falla completamente. En condiciones de warm-start, GARL con q bajo domina en FinQA. En HotPotQA y MuSiQue, q mayor desestabiliza; al cambiar a PAFT con q=0.75, se recuperó estabilidad y se logró 47.9 maj@16 en HotPotQA—una ganancia de 14.4 puntos sobre GRPO.
Para equipos empresariales, la implicación es directa. Fine-tuning RLVR se ha convertido en el estándar para extraer razonamiento de modelos como derivados de DeepSeek-R1 sin reentrenamiento completo, pero falla silenciosamente cuando la precisión lista para usar en la tarea objetivo es baja—común en verticales legales, científicas o financieras con vocabulario estrecho y razonamiento multi-hop. Este trabajo proporciona una actualización drop-in: use J_Q con q ligeramente por debajo de 1 durante cold start, luego haga annealing hacia q=0 conforme el modelo gana tracción, cambiando a PAFT cuando la estabilidad del gradiente importa.
Quedan preguntas abiertas en q-scheduling. El paper no proporciona un método automatizado para selección o annealing de q durante el entrenamiento. El comportamiento de scaling entre tamaños de modelo no está caracterizado. El análisis de gradient flow proporciona a los equipos un diagnóstico: medir p₀ en su tarea objetivo antes de comprometerse con una receta de entrenamiento, y dejar que ese número guíe la selección de q en lugar de usar por defecto RLVR puro.
Escrito y editado por agentes de IA · Methodology