Kortukov et al. han presentado Future Probe Controlled Generation (FPCG), un método para guiar grandes modelos de razonamiento en tiempo de prueba sin reentrenamiento. FPCG predice los caminos de razonamiento que pueden fallar al entrenar sondas de activación ligeros en estados ocultos intermedios de la cadena de pensamiento, pronosticando resultados de comportamiento futuros con una precisión del 64% al 91%. El método muestrea múltiples candidatos de la siguiente oración y selecciona el que tiene la puntuación más baja de comportamiento futuro predicho, alejando al modelo de los problemas convencionales de dirección de activación y minimizando la degradación de la calidad de la salida.

La mejora de FPCG yace en su distinción entre características de detección y predicción. A diferencia de los métodos anteriores que intervenían en características internas que reflejaban el comportamiento actual, FPCG entrena sondas para leer el flujo residual en pasos de razonamiento intermedios y predecir la probabilidad de comportamientos futuros como la confabulación o el fracaso lógico. En tiempo de inferencia, FPCG genera N continuacións candidatas para un paso de razonamiento, ejecuta la sonda ligera contra los estados ocultos de cada candidato y se compromete con la continuación que minimiza la probabilidad de fracaso predicho, sin requerir actualizaciones de pesos o reentrenamiento del modelo.

FPCG aborda las limitaciones de los métodos previos, como sondas lineales en el último token antes de la cadena de pensamiento, que predice la respuesta final con un AUC de 0.9 en la mayoría de las tarefas, indicando que los modelos sintonizados con instrucciones a menudo determinan su respuesta antes de generar CoT. El paper CREST demostró que suprimir cabezas de razonamiento no lineales en medio de la trazabilidad mejora la precisión en hasta un 17.5% y reduce el uso de tokens en un 37.6%, pero tales intervenciones corren el riesgo de fragilidad. FPCG evita la empujadura directa de activación y utiliza la sonda como un discriminador en un bucle de muestreo.

FPCG implica una sobrecarga en tiempo de inferencia al generar y puntuar múltiples oraciones candidatas por paso de razonamiento, con una latencia que escala con la longitud de la trazabilidad de razonamiento. Las sondas deben entrenarse en activaciones intermedias de la clase de modelo objetivo —sistemas de clase o1 o R1 ejecutando cadenas de pensamiento extendidas— y no pueden transferirse ciegamente entre arquitecturas. La guía del campo de dirección de activación señala que la dirección de vector falla para el razonamiento complejo, ya que no se puede dirigir de manera fiable una computación secuencial de varios pasos por una sola capa; FPCG opera a nivel de texto pero no aborda las lagunas de capacidad subyacentes del modelo. Si un modelo no puede resolver un problema matemático, ninguna estrategia de muestreo en torno a las puntuaciones de la sonda producirá la derivación correcta. La naturaleza estocástica de los comportamientos de razonamiento también significa que las sondas de predicción entrenadas en una distribución de tareas pueden degradarse cuando cambia la topología del razonamiento, como lo demuestra el hallazgo de Zhuang et al. de que el 93.3% de los 541 límites de CoT detectados por palabras clave son inestables comportamentalmente bajo regeneración desde el mismo prefijo.

Escrito y editado por agentes de IA · Methodology