Router Matching 50 Reintentos con 10 Muestras Reduce el Cálculo de Tiempo de Prueba de LLM

Investigadores del Mila han demostrado en un nuevo artículo de arXiv que la firma de probabilidad por token de los rastros de razonamiento fallidos de grandes modelos de lenguaje (LLM) codifica una estructura de recuperabilidad. Un router sin entrenamiento puede explotar esta estructura para igualar la tasa de rescate de cincuenta reintentos de lanzamiento con solo diez, reduciendo el cálculo de inferencia en un factor de cinco para la recuperación equivalente.

Llevado por Nizar Islah y Eilif B. Muller, el artículo desafía la suposición estándar de escalado en tiempo de prueba de que los rastros fallidos son desperdicio. En cambio, los investigadores tratan el fracaso como un estado diagnóstico, con la señal residiendo en la topografía distributiva del rastro, es decir, cómo se distribuye la masa de probabilidad entre los tokens, no en el contenido del lenguaje natural. Un fracaso puede resultar de un muestreo desafortunado, un paso de razonamiento único rechazado o una deformación a lo largo del rastro de la dinámica de razonamiento, cada uno requiriendo un operador diferente. Los autores formalizan una taxonomía de operadores: reintento y muestreo de temperatura son movimientos que preservan el rango que reponderean modos existentes pero no pueden invertir los rankings de tokens locales, mientras que el control de logits hacia un ancestro de linaje opera en el espacio de parámetros naturales y puede voltear rankings locales cuando el especialista y el ancestro no concuerdan.

A partir de esta taxonomía, los investigadores derivan tres características de trayectoria a nivel de problema calculadas a partir de la firma distributiva de los lanzamientos fallidos disponibles, no de su texto. Estas características clasifican el tipo de fracaso con un 84.3±4.3 por ciento de precisión, una mejora de veinte puntos sobre una base de mayoría de clase. También caracterizan la topografía del fracaso de diferentes métodos post-entrenamiento, convirtiendo rastros descartados en un diagnóstico post-entrenamiento que no requiere datos de tiempo de entrenamiento o acceso al espacio de pesos. Las mismas características apoyan una regla de enrutamiento sin entrenamiento que se transfiere a través de dos sondas entre familias, sugiriendo que la firma no está vinculada a una sola familia de modelos.

Operativamente, los beneficios se concentran en lo que los autores llaman el subconjunto Steerable-Hard: problemas en los que treinta y dos reintentos de vanilla producen cero éxitos, pero una intervención limitada puede recuperar el rastro. En este régimen relevante para la implementación, la regla de enrutamiento aumenta las tasas de rescate en un 12.2 por ciento. La contabilidad de cálculo es sencilla: el router en K=10 lanzamientos logra la misma tasa de rescate por problema que el escalado de solo reintento en K=50. Para pilas de inferencia que ya están quemando horas de GPU en Best-of-N o votación de auto-consistencia, esto reformula el equilibrio de "muestra más" a "muestra una vez, diagnostica, luego enrute".

Sin embargo, todavía no hay evidencia de producción. La evaluación está limitada a puntos de referencia y varias brechas de integración permanecen abiertas. Las características requieren una distribución de lanzamientos fallidos para calcular, por lo que un arquitecto debe quemar un conjunto inicial de muestras para caracterizar el fracaso antes de que el router pueda ahorrar algo; en tuberías de baja QPS o de baja latencia, ese impuesto inicial puede dominar. El 84.3 por ciento de precisión deja aproximadamente uno de cada seis fracasos mal enruteados, y el artículo no informa sobre el overhead de latencia p50 o p99 para calcular las características sobre la marcha, ni valida el router dentro de motores de servicio existentes como vLLM, TGI o SGLang. Finalmente, el subconjunto Steerable-Hard se define usando conocimiento retrospectivo de si una intervención limitada es alcanzable, una señal que una pila de servicio en vivo no tiene en tiempo de inferencia.

Sources

Three trajectory features classify failure type with 84.3±4.3% accuracy, +20% over a majority-class baseline
"They cluster failures into stable regimes, characterize the failure topography of different post-training methods (84.3±4.3% accuracy, +20% over a majority-class baseline)"
arxiv.org ↗
Training-free routing rule lifts rescue by +12.2% on the Steerable-Hard subset (failures where retry@32=0)
"support a training-free routing rule that lifts rescue by +12.2% on the deployment-relevant Steerable-Hard subset (failures where retry is insufficient and a bounded intervention is reachable)"
arxiv.org ↗
Router at K=10 rollouts matches per-problem rescue rate of retry at K=50, a 5× compute reduction
"The cyan crosshairs mark Feature-only routing at K=10: it matches the per-problem rescue rate of retry at K=50 using substantially less compute."
arxiv.org ↗
Signal is distributional—the per-token probability signature of the trace—not the natural-language content
"The signal we read is distributional, the per-token probability signature of the trace rather than its natural-language content, which separates this diagnostic from verbal self-correction that re-reads and critiques the text."
arxiv.org ↗
Retry and temperature resampling are rank-preserving; logit steering toward a lineage ancestor acts in natural-parameter space and can invert local ranks
"Retry and temperature-based resampling are rank-preserving: they can reweight the specialist's local distribution but cannot make a lower-ranked token become the local mode. Logit steering toward a lineage ancestor acts in natural-parameter space (it averages logits, not probabilities) and can invert local ranks when the specialist and ancestor disagree."
arxiv.org ↗
Features and routing rule transfer across two cross-family probes with no weight-space access required
"The features and the routing rule transfer across two cross-family probes. The same three features thus convert failed traces from discarded data into a diagnostic object, supporting test-time routing and post-training analysis without training-time or weight-space access."
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Router Matching 50 Reintentos con 10 Muestras Reduce el Cálculo de Tiempo de Prueba de LLM

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.