Framework DelTA Melhora Raciocínio ao Corrigir Atribuição de Crédito em Nível de Token

Pesquisadores da Alibaba introduzem DelTA, um framework baseado em discriminador que explica como recompensas em nível de resposta do RLVR (reinforcement learning with verifiable rewards) se propagam para tokens individuais durante o treinamento. Insight: atualizações de policy-gradient funcionam implicitamente como discriminadores lineares sobre vetores de gradiente de token. Ângulo de arquitetura: para equipes fine-tuning de modelos de raciocínio com RLVR, esta metodologia fornece interpretabilidade sobre quais tokens estão sendo incentivados, permitindo design de probe direcionado e prevenindo reward hacking.

Uma equipe da Universidade Renmin da China e Ant International publicou DelTA (Discriminative Token Credit Assignment), um framework que expõe uma falha sistemática no treinamento RLVR. O RLVR padrão aloca crédito de gradiente entre tokens via um discriminador linear oculto. DelTA corrige a falha. Em sete benchmarks de raciocínio matemático, DelTA melhora em relação a baselines de mesma escala por 3,26 pontos em média no Qwen3-8B-Base e 2,62 pontos em média no Qwen3-14B-Base. O código é open-sourced em github.com/RUCBM/DelTA.

Cada atualização RLVR funciona como um discriminador linear sobre vetores de gradiente de token. A direção de atualização é determinada contrastando dois centroides — um construído a partir de respostas com vantagem positiva, outro de respostas com vantagem negativa — via média ponderada por vantagem dos vetores de gradiente de token. Tokens cujos gradientes se alinham mais com o centroide positivo recebem aumento de probabilidade; alinhamento com o centroide negativo os suprime. Este mecanismo tem operado silenciosamente em cada loop de policy-gradient GRPO e REINFORCE-style.

O problema é poluição de centroide. Em tarefas de raciocínio, respostas de alta recompensa e baixa recompensa compartilham sobreposição estrutural substancial: tokens de formatação, boilerplate de chain-of-thought, repetição de entidade de problema. Esses padrões compartilhados de alta frequência aparecem em ambos os lados, arrastando ambos os centroides em direção a estrutura de fundo comum. O discriminador superenfatiza o sinal agnóstico de tarefa e sistematicamente subestima as direções de token esparsa que separam uma cadeia de raciocínio correta de uma incorreta. Loops RLVR acabam otimizando formatação mais que raciocínio.

DelTA reformula a atualização estimando coeficientes por-token que redimensionam cada termo de vetor de gradiente de token na perda substituta RLVR. Tokens cujos gradientes são característicos de um lado — mais frequentes em respostas positivas do que negativas, ou vice-versa — recebem amplificação. Direções de token compartilhadas ou fracamente discriminativas recebem ponderação reduzida. O método repondera uma substituta RLVR self-normalized e não adiciona passes forward ou backward adicionais. Ele opera no nível de agregação de vetor de gradiente.

Os resultados de benchmark abrangem sete datasets matemáticos com Qwen3-8B-Base e Qwen3-14B-Base como backbones. A melhoria de 3,26 pontos de DelTA no 8B e ganho de 2,62 pontos no 14B representam margens sobre os baselines mais fortes de mesma escala. O artigo inclui ganhos em tarefas de geração de código, resultados com diferentes modelos backbone, e avaliações out-of-domain. Desagregações específicas por-dataset e identidades de baseline aparecem nas tabelas do artigo.

Nenhuma evidência de implementação em produção foi divulgada. O artigo não relata figuras de latência, nenhum custo de treinamento, nenhum GPU-hours, e nenhuma comparação wall-clock contra GRPO padrão. O que permanece não validado: se a estimação de coeficiente de token de DelTA adiciona overhead mensurável em escala (p.ex., em modelos 70B+), se o benefício se mantém sob comprimentos de contexto mais longos onde densidade de token de formatação aumenta, e se estabilidade de coeficiente se degrada com ruído de reward-model ou sinais de recompensa esparsa.

Se você está executando fine-tuning RLVR em qualquer modelo de raciocínio, seu sinal de gradiente está sendo diluído por tokens de formatação. Trate atribuição de crédito em nível de token como um hiperparâmetro de primeira classe e não como um detalhe de implementação posterior.

Sources

DelTA outperforms the strongest same-scale baselines by 3.26 average points on Qwen3-8B-Base and 2.62 average points on Qwen3-14B-Base on seven mathematical benchmarks
"On seven mathematical benchmarks, DelTA outperforms the strongest same-scale baselines by 3.26 and 2.62 average points on Qwen3-8B-Base and Qwen3-14B-Base, respectively."
arxiv.org ↗
DelTA is authored by Kaiyi Zhang, Wei Wu, and Yankai Lin from Renmin University of China and Ant International
"Kaiyi Zhang1,2 , Wei Wu2, Yankai Lin1 — Gaoling School of Artificial Intelligence, Renmin University of China; Ant International"
arxiv.org ↗
Code is open-sourced at github.com/RUCBM/DelTA
"Code: https://github.com/RUCBM/DelTA"
arxiv.org ↗
Standard RLVR policy-gradient updates implicitly act as linear discriminators over token-gradient vectors, constructing centroids from positive- and negative-advantage responses
"the policy-gradient update direction implicitly acts as a linear discriminator over token-gradient vectors and thereby determines which token probabilities are increased or decreased during learning. Under standard sequence-level RLVR, this discriminator is constructed from positive- and negative-side centroids formed by advantage-weighted averaging of token-gradient vectors."
arxiv.org ↗
Shared high-frequency patterns such as formatting tokens dominate the centroid construction, diluting sparse discriminative directions
"such centroid construction can be dominated by shared high-frequency patterns, such as formatting tokens, diluting sparse yet discriminative directions that better distinguish high-reward responses from low-reward ones."
arxiv.org ↗
DelTA estimates token coefficients to amplify side-specific token-gradient directions and downweight shared or weakly discriminative ones, reweighting a self-normalized RLVR surrogate
"DelTA, a discriminative token credit assignment method that estimates token coefficients to amplify side-specific token-gradient directions and downweight shared or weakly discriminative ones. These coefficients reweight a self-normalized RLVR surrogate, making the effective side-wise centroids more contrastive and thereby reshaping the RLVR update direction."
arxiv.org ↗
Additional results on code generation, a different backbone, and out-of-domain evaluations demonstrate generalization
"Additional results on code generation, a different backbone, and out-of-domain evaluations further demonstrate the generalization ability of DelTA."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Framework DelTA Melhora Raciocínio ao Corrigir Atribuição de Crédito em Nível de Token

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.