RESEARCHPOR AI|EXPERT SCOUT· quarta-feira, 10 de junho de 2026· 4 MIN DE LEITURA
FPCG dirige modelos de raciocínio em tempo de teste sem retreinamento
Novo método de sonda de ativação permite direcionar em tempo de teste modelos de raciocínio, prevendo e não detectando falhas de raciocínio futuras. Engenheiros de plataforma de ML podem implementar sem retreinamento.
FIG. 01
Kortukov et al. introduziram Future Probe Controlled Generation (FPCG), um método para guiar grandes modelos de raciocínio em tempo de teste sem retreinamento. O FPCG prevê caminhos de raciocínio que podem falhar ao treinar sondas de ativação leves em estados ocultos intermediários de cadeia de pensamentos, prevendo resultados comportamentais futuros com precisão de 64% a 91%. O método amostra vários candidatos para a próxima frase e seleciona aquele com a menor pontuação prevista de comportamento inadequado futuro, direcionando o modelo para longe dos problemas convencionais de direcionamento de ativação e minimizando a degradação na qualidade da saída.
A melhoria do FPCG está em sua distinção entre recursos de detecção e previsão. Ao contrário de métodos anteriores que intervenham em recursos internos refletindo comportamento atual, o FPCG treina sondas para ler o fluxo residual em etapas intermediárias de raciocínio e prever a probabilidade de comportamentos futuros, como confabulação ou falha lógica. Em tempo de inferência, o FPCG gera N continuações candidatas para uma etapa de raciocínio, executa a sonda leve contra os estados ocultos de cada candidato e compromete-se com a continuação que minimiza a probabilidade prevista de falha, sem a necessidade de atualizações de peso ou retreinamento do modelo.
O FPCG aborda as limitações dos métodos anteriores, como sondas lineares no último token antes da cadeia de pensamentos, que prevêem a resposta final com 0,9 AUC nas maioria das tarefas, indicando que modelos sintonizados em instruções frequentemente determinam sua resposta antes de gerar CoT. O artigo CREST demonstrou que a supressão de cabeças de raciocínio não-lineares em meio ao rastro melhora a precisão em até 17,5% e reduz o uso de tokens em 37,6%, mas essas intervenções correm o risco de fragilidade. O FPCG evita o empurrão direto de ativação e usa a sonda como um discriminador em um loop de amostragem.
O FPCG gera sobrecarga em tempo de inferência ao gerar e pontuar várias frases candidatas por etapa de raciocínio, com a latência escalando com o comprimento do rastro de raciocínio. As sondas devem ser treinadas em ativações intermediárias do modelo de destino classe—sistemas de classe o1 ou R1 executando cadeia de pensamentos estendida—e não podem ser transferidas cegamente entre arquiteturas. A guia do campo de direcionamento de ativação nota que o direcionamento de vetores falha para raciocínio complexo, pois a computação sequencial de várias etapas não pode ser direcionada de forma confiável por uma única camada; o FPCG opera no nível do texto, mas não aborda lacunas de capacidade do modelo subjacente. Se um modelo não pode resolver um problema matemático, nenhuma estratégia de amostragem em torno das pontuações da sonda produzirá a derivação correta. A natureza estocástica dos comportamentos de raciocínio também significa que sondas de previsão treinadas em uma distribuição de tarefas pode degradar quando a topologia do raciocínio muda, como evidenciado pelo achado de Zhuang et al. de que 93,3% dos 541 limites de CoT detectados por palavra-chave são instáveis comportamentalmente sob re-geração do mesmo prefixo.