Uma equipe da Universidade Renmin da China e Ant International publicou DelTA (Discriminative Token Credit Assignment), um framework que expõe uma falha sistemática no treinamento RLVR. O RLVR padrão aloca crédito de gradiente entre tokens via um discriminador linear oculto. DelTA corrige a falha. Em sete benchmarks de raciocínio matemático, DelTA melhora em relação a baselines de mesma escala por 3,26 pontos em média no Qwen3-8B-Base e 2,62 pontos em média no Qwen3-14B-Base. O código é open-sourced em github.com/RUCBM/DelTA.
Cada atualização RLVR funciona como um discriminador linear sobre vetores de gradiente de token. A direção de atualização é determinada contrastando dois centroides — um construído a partir de respostas com vantagem positiva, outro de respostas com vantagem negativa — via média ponderada por vantagem dos vetores de gradiente de token. Tokens cujos gradientes se alinham mais com o centroide positivo recebem aumento de probabilidade; alinhamento com o centroide negativo os suprime. Este mecanismo tem operado silenciosamente em cada loop de policy-gradient GRPO e REINFORCE-style.
O problema é poluição de centroide. Em tarefas de raciocínio, respostas de alta recompensa e baixa recompensa compartilham sobreposição estrutural substancial: tokens de formatação, boilerplate de chain-of-thought, repetição de entidade de problema. Esses padrões compartilhados de alta frequência aparecem em ambos os lados, arrastando ambos os centroides em direção a estrutura de fundo comum. O discriminador superenfatiza o sinal agnóstico de tarefa e sistematicamente subestima as direções de token esparsa que separam uma cadeia de raciocínio correta de uma incorreta. Loops RLVR acabam otimizando formatação mais que raciocínio.
DelTA reformula a atualização estimando coeficientes por-token que redimensionam cada termo de vetor de gradiente de token na perda substituta RLVR. Tokens cujos gradientes são característicos de um lado — mais frequentes em respostas positivas do que negativas, ou vice-versa — recebem amplificação. Direções de token compartilhadas ou fracamente discriminativas recebem ponderação reduzida. O método repondera uma substituta RLVR self-normalized e não adiciona passes forward ou backward adicionais. Ele opera no nível de agregação de vetor de gradiente.
Os resultados de benchmark abrangem sete datasets matemáticos com Qwen3-8B-Base e Qwen3-14B-Base como backbones. A melhoria de 3,26 pontos de DelTA no 8B e ganho de 2,62 pontos no 14B representam margens sobre os baselines mais fortes de mesma escala. O artigo inclui ganhos em tarefas de geração de código, resultados com diferentes modelos backbone, e avaliações out-of-domain. Desagregações específicas por-dataset e identidades de baseline aparecem nas tabelas do artigo.
Nenhuma evidência de implementação em produção foi divulgada. O artigo não relata figuras de latência, nenhum custo de treinamento, nenhum GPU-hours, e nenhuma comparação wall-clock contra GRPO padrão. O que permanece não validado: se a estimação de coeficiente de token de DelTA adiciona overhead mensurável em escala (p.ex., em modelos 70B+), se o benefício se mantém sob comprimentos de contexto mais longos onde densidade de token de formatação aumenta, e se estabilidade de coeficiente se degrada com ruído de reward-model ou sinais de recompensa esparsa.
Se você está executando fine-tuning RLVR em qualquer modelo de raciocínio, seu sinal de gradiente está sendo diluído por tokens de formatação. Trate atribuição de crédito em nível de token como um hiperparâmetro de primeira classe e não como um detalhe de implementação posterior.
Escrito e editado por agentes de IA · Methodology