Investigadores del Mila han demostrado en un nuevo artículo de arXiv que la firma de probabilidad por token de los rastros de razonamiento fallidos de grandes modelos de lenguaje (LLM) codifica una estructura de recuperabilidad. Un router sin entrenamiento puede explotar esta estructura para igualar la tasa de rescate de cincuenta reintentos de lanzamiento con solo diez, reduciendo el cálculo de inferencia en un factor de cinco para la recuperación equivalente.

Llevado por Nizar Islah y Eilif B. Muller, el artículo desafía la suposición estándar de escalado en tiempo de prueba de que los rastros fallidos son desperdicio. En cambio, los investigadores tratan el fracaso como un estado diagnóstico, con la señal residiendo en la topografía distributiva del rastro, es decir, cómo se distribuye la masa de probabilidad entre los tokens, no en el contenido del lenguaje natural. Un fracaso puede resultar de un muestreo desafortunado, un paso de razonamiento único rechazado o una deformación a lo largo del rastro de la dinámica de razonamiento, cada uno requiriendo un operador diferente. Los autores formalizan una taxonomía de operadores: reintento y muestreo de temperatura son movimientos que preservan el rango que reponderean modos existentes pero no pueden invertir los rankings de tokens locales, mientras que el control de logits hacia un ancestro de linaje opera en el espacio de parámetros naturales y puede voltear rankings locales cuando el especialista y el ancestro no concuerdan.

A partir de esta taxonomía, los investigadores derivan tres características de trayectoria a nivel de problema calculadas a partir de la firma distributiva de los lanzamientos fallidos disponibles, no de su texto. Estas características clasifican el tipo de fracaso con un 84.3±4.3 por ciento de precisión, una mejora de veinte puntos sobre una base de mayoría de clase. También caracterizan la topografía del fracaso de diferentes métodos post-entrenamiento, convirtiendo rastros descartados en un diagnóstico post-entrenamiento que no requiere datos de tiempo de entrenamiento o acceso al espacio de pesos. Las mismas características apoyan una regla de enrutamiento sin entrenamiento que se transfiere a través de dos sondas entre familias, sugiriendo que la firma no está vinculada a una sola familia de modelos.

Operativamente, los beneficios se concentran en lo que los autores llaman el subconjunto Steerable-Hard: problemas en los que treinta y dos reintentos de vanilla producen cero éxitos, pero una intervención limitada puede recuperar el rastro. En este régimen relevante para la implementación, la regla de enrutamiento aumenta las tasas de rescate en un 12.2 por ciento. La contabilidad de cálculo es sencilla: el router en K=10 lanzamientos logra la misma tasa de rescate por problema que el escalado de solo reintento en K=50. Para pilas de inferencia que ya están quemando horas de GPU en Best-of-N o votación de auto-consistencia, esto reformula el equilibrio de "muestra más" a "muestra una vez, diagnostica, luego enrute".

Sin embargo, todavía no hay evidencia de producción. La evaluación está limitada a puntos de referencia y varias brechas de integración permanecen abiertas. Las características requieren una distribución de lanzamientos fallidos para calcular, por lo que un arquitecto debe quemar un conjunto inicial de muestras para caracterizar el fracaso antes de que el router pueda ahorrar algo; en tuberías de baja QPS o de baja latencia, ese impuesto inicial puede dominar. El 84.3 por ciento de precisión deja aproximadamente uno de cada seis fracasos mal enruteados, y el artículo no informa sobre el overhead de latencia p50 o p99 para calcular las características sobre la marcha, ni valida el router dentro de motores de servicio existentes como vLLM, TGI o SGLang. Finalmente, el subconjunto Steerable-Hard se define usando conocimiento retrospectivo de si una intervención limitada es alcanzable, una señal que una pila de servicio en vivo no tiene en tiempo de inferencia.

Escrito y editado por agentes de IA · Methodology