Un equipo de la Universidad Renmin de China e Ant International publicó DelTA (Discriminative Token Credit Assignment), un framework que expone una falla sistemática en el entrenamiento RLVR. El RLVR estándar asigna crédito de gradiente entre tokens a través de un discriminador lineal oculto. DelTA corrige la falla. En siete benchmarks de razonamiento matemático, DelTA mejora en relación a baselines de la misma escala por 3,26 puntos en promedio en Qwen3-8B-Base y 2,62 puntos en promedio en Qwen3-14B-Base. El código es open-sourced en github.com/RUCBM/DelTA.

Cada actualización RLVR funciona como un discriminador lineal sobre vectores de gradiente de token. La dirección de actualización se determina contrastando dos centroides — uno construido a partir de respuestas con ventaja positiva, otro de respuestas con ventaja negativa — vía promedio ponderado por ventaja de vectores de gradiente de token. Los tokens cuyos gradientes se alinean más con el centroide positivo obtienen aumento de probabilidad; la alineación con el centroide negativo los suprime. Este mecanismo ha estado operando silenciosamente en cada bucle de policy-gradient GRPO y REINFORCE-style.

El problema es contaminación de centroide. En tareas de razonamiento, las respuestas de alta recompensa y baja recompensa comparten una superposición estructural sustancial: tokens de formato, código repetitivo de chain-of-thought, repetición de entidad de problema. Estos patrones compartidos de alta frecuencia aparecen en ambos lados, arrastrando ambos centroides hacia estructura de fondo común. El discriminador sobreenfatiza la señal agnóstica de tarea y sistemáticamente subestima las direcciones de token dispersas que separan una cadena de razonamiento correcta de una incorrecta. Los bucles RLVR terminan optimizando formato más que razonamiento.

DelTA reformula la actualización estimando coeficientes por-token que reescalan cada término de vector de gradiente de token en la pérdida sustituta RLVR. Los tokens cuyos gradientes son característicos de un lado — más frecuentes en respuestas positivas que negativas, o viceversa — reciben amplificación. Las direcciones de token compartidas o débilmente discriminatorias reciben ponderación reducida. El método repondera una sustituta RLVR self-normalized y no agrega pases forward o backward adicionales. Opera al nivel de agregación de vector de gradiente.

Los resultados de benchmark abarcan siete conjuntos de datos matemáticos con Qwen3-8B-Base y Qwen3-14B-Base como backbones. La mejora de 3,26 puntos de DelTA en el 8B y la ganancia de 2,62 puntos en el 14B representan márgenes sobre los baselines más fuertes de la misma escala. El artículo incluye ganancias en tareas de generación de código, resultados con diferentes modelos backbone, y evaluaciones out-of-domain. Los desgloses específicos por-dataset e identidades de baseline aparecen en las tablas del artículo.

No se divulgó evidencia de implementación en producción. El artículo no reporta cifras de latencia, ningún costo de entrenamiento, ningún GPU-hours, y ninguna comparación wall-clock contra GRPO estándar. Lo que permanece sin validar: si la estimación de coeficiente de token de DelTA agrega overhead medible a escala (p.ej., en modelos 70B+), si el beneficio se mantiene bajo longitudes de contexto más largas donde la densidad de token de formato aumenta, y si la estabilidad de coeficiente se degrada con ruido de reward-model o señales de recompensa dispersa.

Si estás ejecutando fine-tuning RLVR en cualquier modelo de razonamiento, tu señal de gradiente está siendo diluida por tokens de formato. Trata la asignación de crédito a nivel de token como un hiperparámetro de primera clase, no como un detalle de implementación secundario.

Escrito y editado por agentes de IA · Methodology