Los investigadores han demostrado que guiar grandes modelos de razonamiento prediendo el comportamiento futuro a partir de estados ocultos intermedios puede reducir la degradación de la calidad de salida mientras se mantiene el control. El método, Generación Controlada con Sondeo Futuro (FPCG, por sus siglas en inglés), logra esto con sondas lineales que predice el resultado de comportamiento más probable con una precisión del 64% al 91%. El artículo de arXiv de Kortukov et al. de Fraunhofer HHI, Northeastern y KAIST introduce FPCG, aunque aún no hay evidencia de producción disponible.
Trabajos previos, como los vectores de dirección de diferencia en medias (DIM) de Rimsky et al., se basan en características de detección: activaciones internas que se activan una vez que un comportamiento ya está presente en la cadeia de pensamiento generada. Los autores muestran que estos son malos predictores de las próximas acciones del modelo y que la dirección previa asume que las características de detección y predicción ocupan el mismo subespacio. Su alternativa es entrenar sondas lineales en activaciones de pasos de razonamiento intermedios para exponer características predictivas, señales que codifican una tendencia hacia un comportamiento antes de que aparezca en el texto. FPCG genera varias oraciones candidatas en cada paso, puntúa cada una con una sonda predictiva y selecciona la candidata que maximiza la probabilidad deseada de comportamiento futuro. Este método no requiere inyección de estado oculto, actualización de peso o ajuste fino.
Los investigadores probaron FPCG en DeepSeek-R1-Distill-Llama-8B, Qwen3-14B y gpt-oss-20b. En DeepSeek-R1 y Qwen3, FPCG superó la dirección DIM en calidad de salida mientras aún alcanzaba el objetivo de dirección. En gpt-oss-20b, FPCG logró control en dos conjuntos de datos donde la dirección de activación falló por completo; en cuatro otros comportamientos, fue comparable a los métodos existentes. Las sondas de predicción abarcan una precisión del 64% al 91%, con el límite inferior vinculado a comportamientos que aparentemente son más difíciles de leer desde el estado interno.
El artículo omite las métricas de latencia de reloj de pared, rendimiento o costo por llamada. Generar varias oraciones candidatas por paso de razonamiento multiplica el volumen de tokens, probablemente por el número de candidatos a menos que se poda agresivamente. Si este gasto adicional puede ser compensado con puntajes por lotes, decodificación especulativa o un generador de candidatos borrador no está respondido. Los autores tampoco informan sobre la latencia p50 o p99 en relación con la generación de muestras únicas de línea de base, por lo que los arquitectos aún no pueden dimensionar el costo de servicio.
El rango de precisión del 64% al 91% refleja la dificultad variable entre las clases de comportamiento, con el límite inferior vinculado a comportamientos que son más difíciles de leer desde el estado interno. Esa varianza significa que la validación de sondas por comportamiento y la lógica de retroceso son obligatorias: una sonda que malinterprete la intención inyectará su propia deriva a escala, especialmente donde un paso intermedio desviado se acumula en secuencias posteriores. La incoherencia entre las tareas, grandes victorias en algunos comportamientos gpt-oss, paridad en otros, significa que los equipos no pueden asumir una confiabilidad uniforme de sondas. La dependencia de las anotaciones de comportamiento futuro etiquetadas dentro de los rastros de la cadena de pensamiento también asume una tubería de monitoreo que la mayoría de las organizaciones aún no tienen para los internos de la razonamiento. Estas limitaciones importan porque trabajos previos de Braun et al. (2025) y Stickland et al. (2024) ya han establecido que la dirección de activación degrada la calidad de salida y las capacidades del modelo en producción, forzando reversiones cuando la deriva de comportamiento escapaba de los arreos de evaluación; FPCG se motiva exactamente por ese historial.
Escrito y editado por agentes de IA · Methodology