Sondas Lineares Atingem 64-91% de Precisão para Modelos de Raciocínio Direcionados

Pesquisadores demonstraram que direcionar grandes modelos de raciocínio, prevendo comportamento futuro a partir de estados ocultos intermediários, pode reduzir a degradação da qualidade da saída enquanto se mantém o controle. O método, Future Probe Controlled Generation (FPCG), alcança isso com sondas lineares prevendo o resultado comportamental mais provável com precisão de 64% a 91%. O artigo no arXiv de Kortukov et al. da Fraunhofer HHI, Northeastern e KAIST introduz o FPCG, ainda que nenhuma evidência de produção esteja disponível até o momento.

Trabalhos anteriores, como os vetores de direcionamento de diferença-em-média (DIM) de Rimsky et al., baseiam-se em recursos de detecção: ativações internas que acionam quando um comportamento já está presente na cadeia de pensamento gerada. Os autores mostram que esses são maus preditores das próximas ações do modelo e que o direcionamento anterior assume que recursos de detecção e previsão ocupam o mesmo subespaço. Sua alternativa é treinar sondas lineares em ativações de passos intermediários de raciocínio para revelar recursos de previsão - sinais que codificam uma tendência a um comportamento antes de aparecer no texto. O FPCG gera múltiplas candidatas de frases em cada passo, avalia cada uma com uma sonda de previsão e seleciona a candidata que maximiza a probabilidade do comportamento futuro desejado. Este método não requer injeção de estado oculto, atualização de peso ou ajuste fino.

Os pesquisadores testaram o FPCG em DeepSeek-R1-Distill-Llama-8B, Qwen3-14B e gpt-oss-20b. No DeepSeek-R1 e Qwen3, o FPCG superou o direcionamento DIM em qualidade de saída enquanto ainda atingia o alvo de direcionamento. No gpt-oss-20b, o FPCG conseguiu controle em dois conjuntos de dados onde o direcionamento de ativação falhou completamente; em quatro outros comportamentos, foi comparável aos métodos existentes. As sondas de previsão abrangeram uma precisão de 64%–91%, com o limite inferior ligado a comportamentos que aparentemente são mais difíceis de ler do estado interno.

O artigo omite as métricas de latência de relógio de parede, taxa de transferência ou custo-por-chamada. Gerar múltiplas candidatas de frases por passo de raciocínio multiplica o volume de tokens, provavelmente pela contagem de candidatos a menos que seja agressivamente podado. Se esse excesso pode ser compensado com pontuação em lote, decodificação especulativa ou um gerador de candidatos de rascunho não é respondido. Os autores também não relatam a latência p50 ou p99 em relação à geração de amostra única de base, então arquitetos ainda não podem dimensionar o custo de serviço.

A faixa de precisão de 64%–91% reflete a dificuldade variável entre classes de comportamento, com o limite inferior ligado a comportamentos que são mais difíceis de ler do estado interno. Essa variação significa que a validação da sonda por comportamento e a lógica de fallback são obrigatórias: uma sonda que lida mal com a intenção injeta sua própria deriva em escala, particularmente onde um único passo intermediário desviando aumenta o efeito downstream. A inconsistência entre tarefas - grandes vitórias em alguns comportamentos gpt-oss, paridade em outros - significa que equipes não podem assumir confiabilidade uniforme da sonda. A dependência de anotações de comportamento futuro rotuladas dentro de traços de cadeia de pensamento também assume um pipeline de monitoramento que a maioria das organizações ainda não tem para internals de raciocínio. Essas limitações importam porque trabalhos anteriores de Braun et al. (2025) e Stickland et al. (2024) já estabeleceram que o direcionamento de ativação degrada a qualidade da saída e as capacidades do modelo em produção, forçando reversions quando a deriva comportamental escapou dos freios de avaliação; o FPCG é motivado exatamente por esse histórico.

Sources

Linear probes trained on intermediate reasoning-step activations predict the most likely future behavior with 64%–91% accuracy
"These probes predict the most likely behavior with 64%–91% accuracy, revealing a separate type of internal prediction features."
arxiv.org ↗
Detection features are poor predictors of future behavioral outcomes and are not the natural intervention target for steering
"We show that these detection features are poor predictors of future behavioral outcomes, and thus not the natural intervention target."
arxiv.org ↗
FPCG enables steering with almost no output quality degradation
"This enables steering with almost no output quality degradation."
arxiv.org ↗
FPCG outperformed DIM activation steering in output quality on DeepSeek-R1-Distill-Llama-8B and Qwen3-14B
"We find that FPCG outperforms difference-in-means activation steering in output quality for DeepSeek-R1-Distill-Llama-8B and Qwen3-14B."
arxiv.org ↗
On gpt-oss-20b, FPCG enables steering on two datasets where activation steering completely fails
"On the third studied model (gpt-oss-20b) FPCG enables steering on two datasets where activation steering does not work, while performing comparably on four other behaviors."
arxiv.org ↗
FPCG is a text-level method that samples multiple candidate sentences per reasoning step and selects the best via a prediction probe — no hidden-state injection or fine-tuning required
"It works by generating several candidates for each reasoning step and choosing the one that maximizes the activation of a prediction feature for a given behavior."
arxiv.org ↗
Prior difference-in-means steering relies on detection features that activate once behavior is already present in the generated chain-of-thought
"The standard procedure for designing difference-in-means steering vectors [Rimsky et al., 2024] relies on these features."
arxiv.org ↗
LRMs maintain a distribution over possible future responses during CoT reasoning without necessarily verbalizing it
"During reasoning, these models have been shown to keep a distribution over multiple possible future responses, without necessarily verbalizing it in the CoT."
arxiv.org ↗
Activation steering degrades output quality in production — prior work by Braun et al. (2025) on quality and Stickland et al. (2024) on capabilities, cited as motivation by Kortukov et al.
"The central practical challenge for activation steering is the introduced degradation in output quality [Braun et al., 2025] and model capabilities [Stickland et al., 2024]."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Sondas Lineares Atingem 64-91% de Precisão para Modelos de Raciocínio Direcionados

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.