Framework DelTA Mejora el Razonamiento al Corregir la Asignación de Crédito a Nivel de Token

Investigadores de Alibaba introducen DelTA, un framework basado en discriminador que explica cómo las recompensas a nivel de respuesta de RLVR (reinforcement learning with verifiable rewards) se propagan a tokens individuales durante el entrenamiento. Insight: las actualizaciones de policy-gradient actúan implícitamente como discriminadores lineales sobre vectores de gradiente de token. Ángulo de arquitectura: para equipos fine-tuning de modelos de razonamiento con RLVR, esta metodología proporciona interpretabilidad sobre qué tokens están siendo incentivados, habilitando diseño de probe dirigido y previniendo reward hacking.

Un equipo de la Universidad Renmin de China e Ant International publicó DelTA (Discriminative Token Credit Assignment), un framework que expone una falla sistemática en el entrenamiento RLVR. El RLVR estándar asigna crédito de gradiente entre tokens a través de un discriminador lineal oculto. DelTA corrige la falla. En siete benchmarks de razonamiento matemático, DelTA mejora en relación a baselines de la misma escala por 3,26 puntos en promedio en Qwen3-8B-Base y 2,62 puntos en promedio en Qwen3-14B-Base. El código es open-sourced en github.com/RUCBM/DelTA.

Cada actualización RLVR funciona como un discriminador lineal sobre vectores de gradiente de token. La dirección de actualización se determina contrastando dos centroides — uno construido a partir de respuestas con ventaja positiva, otro de respuestas con ventaja negativa — vía promedio ponderado por ventaja de vectores de gradiente de token. Los tokens cuyos gradientes se alinean más con el centroide positivo obtienen aumento de probabilidad; la alineación con el centroide negativo los suprime. Este mecanismo ha estado operando silenciosamente en cada bucle de policy-gradient GRPO y REINFORCE-style.

El problema es contaminación de centroide. En tareas de razonamiento, las respuestas de alta recompensa y baja recompensa comparten una superposición estructural sustancial: tokens de formato, código repetitivo de chain-of-thought, repetición de entidad de problema. Estos patrones compartidos de alta frecuencia aparecen en ambos lados, arrastrando ambos centroides hacia estructura de fondo común. El discriminador sobreenfatiza la señal agnóstica de tarea y sistemáticamente subestima las direcciones de token dispersas que separan una cadena de razonamiento correcta de una incorrecta. Los bucles RLVR terminan optimizando formato más que razonamiento.

DelTA reformula la actualización estimando coeficientes por-token que reescalan cada término de vector de gradiente de token en la pérdida sustituta RLVR. Los tokens cuyos gradientes son característicos de un lado — más frecuentes en respuestas positivas que negativas, o viceversa — reciben amplificación. Las direcciones de token compartidas o débilmente discriminatorias reciben ponderación reducida. El método repondera una sustituta RLVR self-normalized y no agrega pases forward o backward adicionales. Opera al nivel de agregación de vector de gradiente.

Los resultados de benchmark abarcan siete conjuntos de datos matemáticos con Qwen3-8B-Base y Qwen3-14B-Base como backbones. La mejora de 3,26 puntos de DelTA en el 8B y la ganancia de 2,62 puntos en el 14B representan márgenes sobre los baselines más fuertes de la misma escala. El artículo incluye ganancias en tareas de generación de código, resultados con diferentes modelos backbone, y evaluaciones out-of-domain. Los desgloses específicos por-dataset e identidades de baseline aparecen en las tablas del artículo.

No se divulgó evidencia de implementación en producción. El artículo no reporta cifras de latencia, ningún costo de entrenamiento, ningún GPU-hours, y ninguna comparación wall-clock contra GRPO estándar. Lo que permanece sin validar: si la estimación de coeficiente de token de DelTA agrega overhead medible a escala (p.ej., en modelos 70B+), si el beneficio se mantiene bajo longitudes de contexto más largas donde la densidad de token de formato aumenta, y si la estabilidad de coeficiente se degrada con ruido de reward-model o señales de recompensa dispersa.

Si estás ejecutando fine-tuning RLVR en cualquier modelo de razonamiento, tu señal de gradiente está siendo diluida por tokens de formato. Trata la asignación de crédito a nivel de token como un hiperparámetro de primera clase, no como un detalle de implementación secundario.

Sources

DelTA outperforms the strongest same-scale baselines by 3.26 average points on Qwen3-8B-Base and 2.62 average points on Qwen3-14B-Base on seven mathematical benchmarks
"On seven mathematical benchmarks, DelTA outperforms the strongest same-scale baselines by 3.26 and 2.62 average points on Qwen3-8B-Base and Qwen3-14B-Base, respectively."
arxiv.org ↗
DelTA is authored by Kaiyi Zhang, Wei Wu, and Yankai Lin from Renmin University of China and Ant International
"Kaiyi Zhang1,2 , Wei Wu2, Yankai Lin1 — Gaoling School of Artificial Intelligence, Renmin University of China; Ant International"
arxiv.org ↗
Code is open-sourced at github.com/RUCBM/DelTA
"Code: https://github.com/RUCBM/DelTA"
arxiv.org ↗
Standard RLVR policy-gradient updates implicitly act as linear discriminators over token-gradient vectors, constructing centroids from positive- and negative-advantage responses
"the policy-gradient update direction implicitly acts as a linear discriminator over token-gradient vectors and thereby determines which token probabilities are increased or decreased during learning. Under standard sequence-level RLVR, this discriminator is constructed from positive- and negative-side centroids formed by advantage-weighted averaging of token-gradient vectors."
arxiv.org ↗
Shared high-frequency patterns such as formatting tokens dominate the centroid construction, diluting sparse discriminative directions
"such centroid construction can be dominated by shared high-frequency patterns, such as formatting tokens, diluting sparse yet discriminative directions that better distinguish high-reward responses from low-reward ones."
arxiv.org ↗
DelTA estimates token coefficients to amplify side-specific token-gradient directions and downweight shared or weakly discriminative ones, reweighting a self-normalized RLVR surrogate
"DelTA, a discriminative token credit assignment method that estimates token coefficients to amplify side-specific token-gradient directions and downweight shared or weakly discriminative ones. These coefficients reweight a self-normalized RLVR surrogate, making the effective side-wise centroids more contrastive and thereby reshaping the RLVR update direction."
arxiv.org ↗
Additional results on code generation, a different backbone, and out-of-domain evaluations demonstrate generalization
"Additional results on code generation, a different backbone, and out-of-domain evaluations further demonstrate the generalization ability of DelTA."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Framework DelTA Mejora el Razonamiento al Corregir la Asignación de Crédito a Nivel de Token

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.