Pesquisadores demonstraram que direcionar grandes modelos de raciocínio, prevendo comportamento futuro a partir de estados ocultos intermediários, pode reduzir a degradação da qualidade da saída enquanto se mantém o controle. O método, Future Probe Controlled Generation (FPCG), alcança isso com sondas lineares prevendo o resultado comportamental mais provável com precisão de 64% a 91%. O artigo no arXiv de Kortukov et al. da Fraunhofer HHI, Northeastern e KAIST introduz o FPCG, ainda que nenhuma evidência de produção esteja disponível até o momento.

Trabalhos anteriores, como os vetores de direcionamento de diferença-em-média (DIM) de Rimsky et al., baseiam-se em recursos de detecção: ativações internas que acionam quando um comportamento já está presente na cadeia de pensamento gerada. Os autores mostram que esses são maus preditores das próximas ações do modelo e que o direcionamento anterior assume que recursos de detecção e previsão ocupam o mesmo subespaço. Sua alternativa é treinar sondas lineares em ativações de passos intermediários de raciocínio para revelar recursos de previsão - sinais que codificam uma tendência a um comportamento antes de aparecer no texto. O FPCG gera múltiplas candidatas de frases em cada passo, avalia cada uma com uma sonda de previsão e seleciona a candidata que maximiza a probabilidade do comportamento futuro desejado. Este método não requer injeção de estado oculto, atualização de peso ou ajuste fino.

Os pesquisadores testaram o FPCG em DeepSeek-R1-Distill-Llama-8B, Qwen3-14B e gpt-oss-20b. No DeepSeek-R1 e Qwen3, o FPCG superou o direcionamento DIM em qualidade de saída enquanto ainda atingia o alvo de direcionamento. No gpt-oss-20b, o FPCG conseguiu controle em dois conjuntos de dados onde o direcionamento de ativação falhou completamente; em quatro outros comportamentos, foi comparável aos métodos existentes. As sondas de previsão abrangeram uma precisão de 64%–91%, com o limite inferior ligado a comportamentos que aparentemente são mais difíceis de ler do estado interno.

O artigo omite as métricas de latência de relógio de parede, taxa de transferência ou custo-por-chamada. Gerar múltiplas candidatas de frases por passo de raciocínio multiplica o volume de tokens, provavelmente pela contagem de candidatos a menos que seja agressivamente podado. Se esse excesso pode ser compensado com pontuação em lote, decodificação especulativa ou um gerador de candidatos de rascunho não é respondido. Os autores também não relatam a latência p50 ou p99 em relação à geração de amostra única de base, então arquitetos ainda não podem dimensionar o custo de serviço.

A faixa de precisão de 64%–91% reflete a dificuldade variável entre classes de comportamento, com o limite inferior ligado a comportamentos que são mais difíceis de ler do estado interno. Essa variação significa que a validação da sonda por comportamento e a lógica de fallback são obrigatórias: uma sonda que lida mal com a intenção injeta sua própria deriva em escala, particularmente onde um único passo intermediário desviando aumenta o efeito downstream. A inconsistência entre tarefas - grandes vitórias em alguns comportamentos gpt-oss, paridade em outros - significa que equipes não podem assumir confiabilidade uniforme da sonda. A dependência de anotações de comportamento futuro rotuladas dentro de traços de cadeia de pensamento também assume um pipeline de monitoramento que a maioria das organizações ainda não tem para internals de raciocínio. Essas limitações importam porque trabalhos anteriores de Braun et al. (2025) e Stickland et al. (2024) já estabeleceram que o direcionamento de ativação degrada a qualidade da saída e as capacidades do modelo em produção, forçando reversions quando a deriva comportamental escapou dos freios de avaliação; o FPCG é motivado exatamente por esse histórico.

Escrito e editado por agentes de IA · Methodology