Router Correspondência de 50 Novas Tentativas com 10 Amostras Corta Computação de Teste de LLM

Pesquisadores da Mila demonstraram em um novo artigo no arXiv que a assinatura de probabilidade por token de traços de raciocínio com falha em grandes modelos de linguagem (LLM) codifica uma estrutura de recuperabilidade. Um roteador sem treinamento pode explorar essa estrutura para igualar a taxa de resgate de cinquenta novas tentativas de lançamento com apenas dez, reduzindo a computação de inferência em um fator de cinco para recuperação equivalente.

Led by Nizar Islah e Eilif B. Muller, o artigo desafia a suposição padrão de dimensionamento de tempo de teste de que traços com falha são desperdício. Em vez disso, os pesquisadores tratam a falha como um estado diagnóstico, com o sinal residente na topografia distribucional do traço - como a massa de probabilidade se dispõe em torno dos tokens - e não no conteúdo em linguagem natural. Uma falha pode resultar de amostragem infeliz, um único passo de raciocínio rebaixado ou uma deformação em toda a trilha de dinâmicas de raciocínio, cada um requerendo um operador diferente. Os autores formalizam uma taxonomia de operador: novas tentativas e resampling de temperatura são movimentos que preservam a classificação que reponderam modos existentes, mas não podem inverter classificações locais de tokens, enquanto o direcionamento de logits em direção a um ancestral de linhagem opera no espaço de parâmetros naturais e pode inverter classificações locais quando o especialista e o ancestral discordam.

A partir dessa taxonomia, os pesquisadores derivam três características de trajetória de nível de problema calculadas a partir da assinatura distribucional de lançamentos com falha disponíveis, não de seu texto. Essas características classificam o tipo de falha com 84,3±4,3 por cento de precisão, uma melhoria de vinte pontos em relação a uma linha de base da maioria da classe. Eles também caracterizam a topografia da falha de diferentes métodos pós-treinamento, transformando traços descartados em um diagnóstico pós-treinamento que não requer dados de tempo de treinamento ou acesso ao espaço de pesos. As mesmas características apoiam uma regra de roteamento sem treinamento que se transfere entre dois sondas trans-família, sugerindo que a assinatura não está vinculada a uma única família de modelos.

Operacionalmente, os ganhos estão concentrados no que os autores chamam de subconjunto Steerable-Hard: problemas em que vinte e oito novas tentativas de vanilla renderam zero sucesso, mas uma intervenção limitada pode recuperar a trilha. Neste regime relevante ao deploy, a regra de roteamento eleva as taxas de resgate em 12,2 por cento. A contabilidade de computação é direta: o roteador em K=10 lançamentos alcança a mesma taxa de resgate por problema que o dimensionamento apenas de novas tentativas em K=50. Para pilhas de inferência que já estão queimando horas de GPU no Best-of-N ou votação de auto-consistência, isso reconfigura a compensação de "amostrar mais" para "amostrar uma vez, diagnosticar, então rotear."

No entanto, ainda não há evidência de produção. A avaliação é limitada a benchmarks e várias lacunas de integração permanecem abertas. As características exigem uma distribuição de lançamentos com falha para computar, então um arquiteto deve queimar um conjunto inicial de amostras para caracterizar a falha antes que o roteador possa economizar algo; em pipelines de baixa QPS ou estreitas latências, esse imposto inicial pode dominar. A precisão de 84,3 por cento deixa aproximadamente um em seis falhas mal direcionadas, e o artigo não relata o overhead de latência p50 ou p99 para computar as características no ar, nem valida o roteador dentro de motores de serviço existentes, como vLLM, TGI ou SGLang. Finalmente, o subconjunto Steerable-Hard é definido usando conhecimento retrospectivo de se uma intervenção limitada é alcançável, um sinal que um sistema de serviço ao vivo não tem no tempo de inferência.

Sources

Three trajectory features classify failure type with 84.3±4.3% accuracy, +20% over a majority-class baseline
"They cluster failures into stable regimes, characterize the failure topography of different post-training methods (84.3±4.3% accuracy, +20% over a majority-class baseline)"
arxiv.org ↗
Training-free routing rule lifts rescue by +12.2% on the Steerable-Hard subset (failures where retry@32=0)
"support a training-free routing rule that lifts rescue by +12.2% on the deployment-relevant Steerable-Hard subset (failures where retry is insufficient and a bounded intervention is reachable)"
arxiv.org ↗
Router at K=10 rollouts matches per-problem rescue rate of retry at K=50, a 5× compute reduction
"The cyan crosshairs mark Feature-only routing at K=10: it matches the per-problem rescue rate of retry at K=50 using substantially less compute."
arxiv.org ↗
Signal is distributional—the per-token probability signature of the trace—not the natural-language content
"The signal we read is distributional, the per-token probability signature of the trace rather than its natural-language content, which separates this diagnostic from verbal self-correction that re-reads and critiques the text."
arxiv.org ↗
Retry and temperature resampling are rank-preserving; logit steering toward a lineage ancestor acts in natural-parameter space and can invert local ranks
"Retry and temperature-based resampling are rank-preserving: they can reweight the specialist's local distribution but cannot make a lower-ranked token become the local mode. Logit steering toward a lineage ancestor acts in natural-parameter space (it averages logits, not probabilities) and can invert local ranks when the specialist and ancestor disagree."
arxiv.org ↗
Features and routing rule transfer across two cross-family probes with no weight-space access required
"The features and the routing rule transfer across two cross-family probes. The same three features thus convert failed traces from discarded data into a diagnostic object, supporting test-time routing and post-training analysis without training-time or weight-space access."
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Router Correspondência de 50 Novas Tentativas com 10 Amostras Corta Computação de Teste de LLM

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.