Sondeos Lineales Logran Precisión del 64-91% en Modelos de Razonamiento

Los investigadores han demostrado que guiar grandes modelos de razonamiento prediendo el comportamiento futuro a partir de estados ocultos intermedios puede reducir la degradación de la calidad de salida mientras se mantiene el control. El método, Generación Controlada con Sondeo Futuro (FPCG, por sus siglas en inglés), logra esto con sondas lineales que predice el resultado de comportamiento más probable con una precisión del 64% al 91%. El artículo de arXiv de Kortukov et al. de Fraunhofer HHI, Northeastern y KAIST introduce FPCG, aunque aún no hay evidencia de producción disponible.

Trabajos previos, como los vectores de dirección de diferencia en medias (DIM) de Rimsky et al., se basan en características de detección: activaciones internas que se activan una vez que un comportamiento ya está presente en la cadeia de pensamiento generada. Los autores muestran que estos son malos predictores de las próximas acciones del modelo y que la dirección previa asume que las características de detección y predicción ocupan el mismo subespacio. Su alternativa es entrenar sondas lineales en activaciones de pasos de razonamiento intermedios para exponer características predictivas, señales que codifican una tendencia hacia un comportamiento antes de que aparezca en el texto. FPCG genera varias oraciones candidatas en cada paso, puntúa cada una con una sonda predictiva y selecciona la candidata que maximiza la probabilidad deseada de comportamiento futuro. Este método no requiere inyección de estado oculto, actualización de peso o ajuste fino.

Los investigadores probaron FPCG en DeepSeek-R1-Distill-Llama-8B, Qwen3-14B y gpt-oss-20b. En DeepSeek-R1 y Qwen3, FPCG superó la dirección DIM en calidad de salida mientras aún alcanzaba el objetivo de dirección. En gpt-oss-20b, FPCG logró control en dos conjuntos de datos donde la dirección de activación falló por completo; en cuatro otros comportamientos, fue comparable a los métodos existentes. Las sondas de predicción abarcan una precisión del 64% al 91%, con el límite inferior vinculado a comportamientos que aparentemente son más difíciles de leer desde el estado interno.

El artículo omite las métricas de latencia de reloj de pared, rendimiento o costo por llamada. Generar varias oraciones candidatas por paso de razonamiento multiplica el volumen de tokens, probablemente por el número de candidatos a menos que se poda agresivamente. Si este gasto adicional puede ser compensado con puntajes por lotes, decodificación especulativa o un generador de candidatos borrador no está respondido. Los autores tampoco informan sobre la latencia p50 o p99 en relación con la generación de muestras únicas de línea de base, por lo que los arquitectos aún no pueden dimensionar el costo de servicio.

El rango de precisión del 64% al 91% refleja la dificultad variable entre las clases de comportamiento, con el límite inferior vinculado a comportamientos que son más difíciles de leer desde el estado interno. Esa varianza significa que la validación de sondas por comportamiento y la lógica de retroceso son obligatorias: una sonda que malinterprete la intención inyectará su propia deriva a escala, especialmente donde un paso intermedio desviado se acumula en secuencias posteriores. La incoherencia entre las tareas, grandes victorias en algunos comportamientos gpt-oss, paridad en otros, significa que los equipos no pueden asumir una confiabilidad uniforme de sondas. La dependencia de las anotaciones de comportamiento futuro etiquetadas dentro de los rastros de la cadena de pensamiento también asume una tubería de monitoreo que la mayoría de las organizaciones aún no tienen para los internos de la razonamiento. Estas limitaciones importan porque trabajos previos de Braun et al. (2025) y Stickland et al. (2024) ya han establecido que la dirección de activación degrada la calidad de salida y las capacidades del modelo en producción, forzando reversiones cuando la deriva de comportamiento escapaba de los arreos de evaluación; FPCG se motiva exactamente por ese historial.

Sources

Linear probes trained on intermediate reasoning-step activations predict the most likely future behavior with 64%–91% accuracy
"These probes predict the most likely behavior with 64%–91% accuracy, revealing a separate type of internal prediction features."
arxiv.org ↗
Detection features are poor predictors of future behavioral outcomes and are not the natural intervention target for steering
"We show that these detection features are poor predictors of future behavioral outcomes, and thus not the natural intervention target."
arxiv.org ↗
FPCG enables steering with almost no output quality degradation
"This enables steering with almost no output quality degradation."
arxiv.org ↗
FPCG outperformed DIM activation steering in output quality on DeepSeek-R1-Distill-Llama-8B and Qwen3-14B
"We find that FPCG outperforms difference-in-means activation steering in output quality for DeepSeek-R1-Distill-Llama-8B and Qwen3-14B."
arxiv.org ↗
On gpt-oss-20b, FPCG enables steering on two datasets where activation steering completely fails
"On the third studied model (gpt-oss-20b) FPCG enables steering on two datasets where activation steering does not work, while performing comparably on four other behaviors."
arxiv.org ↗
FPCG is a text-level method that samples multiple candidate sentences per reasoning step and selects the best via a prediction probe — no hidden-state injection or fine-tuning required
"It works by generating several candidates for each reasoning step and choosing the one that maximizes the activation of a prediction feature for a given behavior."
arxiv.org ↗
Prior difference-in-means steering relies on detection features that activate once behavior is already present in the generated chain-of-thought
"The standard procedure for designing difference-in-means steering vectors [Rimsky et al., 2024] relies on these features."
arxiv.org ↗
LRMs maintain a distribution over possible future responses during CoT reasoning without necessarily verbalizing it
"During reasoning, these models have been shown to keep a distribution over multiple possible future responses, without necessarily verbalizing it in the CoT."
arxiv.org ↗
Activation steering degrades output quality in production — prior work by Braun et al. (2025) on quality and Stickland et al. (2024) on capabilities, cited as motivation by Kortukov et al.
"The central practical challenge for activation steering is the introduced degradation in output quality [Braun et al., 2025] and model capabilities [Stickland et al., 2024]."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Sondeos Lineales Logran Precisión del 64-91% en Modelos de Razonamiento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.