FPCG dirige modelos de razonamiento en tiempo de prueba sin reentrenamiento

Kortukov et al. han presentado Future Probe Controlled Generation (FPCG), un método para guiar grandes modelos de razonamiento en tiempo de prueba sin reentrenamiento. FPCG predice los caminos de razonamiento que pueden fallar al entrenar sondas de activación ligeros en estados ocultos intermedios de la cadena de pensamiento, pronosticando resultados de comportamiento futuros con una precisión del 64% al 91%. El método muestrea múltiples candidatos de la siguiente oración y selecciona el que tiene la puntuación más baja de comportamiento futuro predicho, alejando al modelo de los problemas convencionales de dirección de activación y minimizando la degradación de la calidad de la salida.

La mejora de FPCG yace en su distinción entre características de detección y predicción. A diferencia de los métodos anteriores que intervenían en características internas que reflejaban el comportamiento actual, FPCG entrena sondas para leer el flujo residual en pasos de razonamiento intermedios y predecir la probabilidad de comportamientos futuros como la confabulación o el fracaso lógico. En tiempo de inferencia, FPCG genera N continuacións candidatas para un paso de razonamiento, ejecuta la sonda ligera contra los estados ocultos de cada candidato y se compromete con la continuación que minimiza la probabilidad de fracaso predicho, sin requerir actualizaciones de pesos o reentrenamiento del modelo.

FPCG aborda las limitaciones de los métodos previos, como sondas lineales en el último token antes de la cadena de pensamiento, que predice la respuesta final con un AUC de 0.9 en la mayoría de las tarefas, indicando que los modelos sintonizados con instrucciones a menudo determinan su respuesta antes de generar CoT. El paper CREST demostró que suprimir cabezas de razonamiento no lineales en medio de la trazabilidad mejora la precisión en hasta un 17.5% y reduce el uso de tokens en un 37.6%, pero tales intervenciones corren el riesgo de fragilidad. FPCG evita la empujadura directa de activación y utiliza la sonda como un discriminador en un bucle de muestreo.

FPCG implica una sobrecarga en tiempo de inferencia al generar y puntuar múltiples oraciones candidatas por paso de razonamiento, con una latencia que escala con la longitud de la trazabilidad de razonamiento. Las sondas deben entrenarse en activaciones intermedias de la clase de modelo objetivo —sistemas de clase o1 o R1 ejecutando cadenas de pensamiento extendidas— y no pueden transferirse ciegamente entre arquitecturas. La guía del campo de dirección de activación señala que la dirección de vector falla para el razonamiento complejo, ya que no se puede dirigir de manera fiable una computación secuencial de varios pasos por una sola capa; FPCG opera a nivel de texto pero no aborda las lagunas de capacidad subyacentes del modelo. Si un modelo no puede resolver un problema matemático, ninguna estrategia de muestreo en torno a las puntuaciones de la sonda producirá la derivación correcta. La naturaleza estocástica de los comportamientos de razonamiento también significa que las sondas de predicción entrenadas en una distribución de tareas pueden degradarse cuando cambia la topología del razonamiento, como lo demuestra el hallazgo de Zhuang et al. de que el 93.3% de los 541 límites de CoT detectados por palabras clave son inestables comportamentalmente bajo regeneración desde el mismo prefijo.

Sources

FPCG probes predict the most likely future behavior with 64%–91% accuracy; achieves steering with almost no output quality degradation and succeeds where activation steering fails
"These probes predict the most likely behavior with 64%-91% accuracy, revealing a separate type of internal prediction features... This enables steering with almost no output quality degradation. FPCG also enables steering in several evaluations where activation steering fails."
arxiv.org ↗
Prior activation steering relies on detection features that reflect already-generated text and are poor predictors of future behavioral outcomes
"We argue that prior steering work implicitly relies on internal features that detect behavior in already generated text. We show that these detection features are poor predictors of future behavioral outcomes, and thus not the natural intervention target."
arxiv.org ↗
Instruction-tuned models often determine their answer before generating CoT; linear probes on pre-CoT residual activations predict final answer with 0.9 AUC on most tasks
"We provide mechanistic evidence that instruction-tuned models often determine their answer before generating CoT. Training linear probes on residual stream activations at the last token before CoT, we can predict the model's final answer with 0.9 AUC on most tasks."
arxiv.org ↗
Steering activations along the probe direction flips model answers in over 50% of cases; failure modes include non-entailment and confabulation
"We find that these directions are not only predictive, but also causal: steering activations along the probe direction flips model answers in over 50% of cases, significantly exceeding orthogonal baselines. When steering induces incorrect answers, we observe two distinct failure modes: non-entailment and confabulation."
arxiv.org ↗
93.3% of keyword-detected CoT boundaries are behaviorally unstable, failing to reproduce the detected behavior under re-generation from the same prefix
"We show that this assumption is overwhelmingly wrong: across 541 keyword-detected boundaries, 93.3% are behaviorally unstable, failing to reproduce the detected behavior under re-generation from the same prefix."
arxiv.org ↗
CREST cognitive-head intervention improves accuracy by up to 17.5% while reducing token usage by 37.6% across diverse reasoning benchmarks
"Across diverse reasoning benchmarks and models, CREST improves accuracy by up to 17.5% while reducing token usage by 37.6%, offering a simple and effective pathway to faster, more reliable LLM reasoning."
arxiv.org ↗
Vector steering genuinely fails for complex reasoning because multi-step computation cannot be bent reliably by a single direction at one layer
"Complex reasoning. Steering doesn't help with multi-step logic. If the model can't solve a math problem, adding a 'be smarter' vector doesn't help. This makes sense—reasoning involves sequential computation across many layers, not a single direction at one layer."
subhadipmitra.com ↗

Escrito y editado por agentes de IA · Methodology

FPCG dirige modelos de razonamiento en tiempo de prueba sin reentrenamiento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.