Pesquisadores da Mila demonstraram em um novo artigo no arXiv que a assinatura de probabilidade por token de traços de raciocínio com falha em grandes modelos de linguagem (LLM) codifica uma estrutura de recuperabilidade. Um roteador sem treinamento pode explorar essa estrutura para igualar a taxa de resgate de cinquenta novas tentativas de lançamento com apenas dez, reduzindo a computação de inferência em um fator de cinco para recuperação equivalente.

Led by Nizar Islah e Eilif B. Muller, o artigo desafia a suposição padrão de dimensionamento de tempo de teste de que traços com falha são desperdício. Em vez disso, os pesquisadores tratam a falha como um estado diagnóstico, com o sinal residente na topografia distribucional do traço - como a massa de probabilidade se dispõe em torno dos tokens - e não no conteúdo em linguagem natural. Uma falha pode resultar de amostragem infeliz, um único passo de raciocínio rebaixado ou uma deformação em toda a trilha de dinâmicas de raciocínio, cada um requerendo um operador diferente. Os autores formalizam uma taxonomia de operador: novas tentativas e resampling de temperatura são movimentos que preservam a classificação que reponderam modos existentes, mas não podem inverter classificações locais de tokens, enquanto o direcionamento de logits em direção a um ancestral de linhagem opera no espaço de parâmetros naturais e pode inverter classificações locais quando o especialista e o ancestral discordam.

A partir dessa taxonomia, os pesquisadores derivam três características de trajetória de nível de problema calculadas a partir da assinatura distribucional de lançamentos com falha disponíveis, não de seu texto. Essas características classificam o tipo de falha com 84,3±4,3 por cento de precisão, uma melhoria de vinte pontos em relação a uma linha de base da maioria da classe. Eles também caracterizam a topografia da falha de diferentes métodos pós-treinamento, transformando traços descartados em um diagnóstico pós-treinamento que não requer dados de tempo de treinamento ou acesso ao espaço de pesos. As mesmas características apoiam uma regra de roteamento sem treinamento que se transfere entre dois sondas trans-família, sugerindo que a assinatura não está vinculada a uma única família de modelos.

Operacionalmente, os ganhos estão concentrados no que os autores chamam de subconjunto Steerable-Hard: problemas em que vinte e oito novas tentativas de vanilla renderam zero sucesso, mas uma intervenção limitada pode recuperar a trilha. Neste regime relevante ao deploy, a regra de roteamento eleva as taxas de resgate em 12,2 por cento. A contabilidade de computação é direta: o roteador em K=10 lançamentos alcança a mesma taxa de resgate por problema que o dimensionamento apenas de novas tentativas em K=50. Para pilhas de inferência que já estão queimando horas de GPU no Best-of-N ou votação de auto-consistência, isso reconfigura a compensação de "amostrar mais" para "amostrar uma vez, diagnosticar, então rotear."

No entanto, ainda não há evidência de produção. A avaliação é limitada a benchmarks e várias lacunas de integração permanecem abertas. As características exigem uma distribuição de lançamentos com falha para computar, então um arquiteto deve queimar um conjunto inicial de amostras para caracterizar a falha antes que o roteador possa economizar algo; em pipelines de baixa QPS ou estreitas latências, esse imposto inicial pode dominar. A precisão de 84,3 por cento deixa aproximadamente um em seis falhas mal direcionadas, e o artigo não relata o overhead de latência p50 ou p99 para computar as características no ar, nem valida o roteador dentro de motores de serviço existentes, como vLLM, TGI ou SGLang. Finalmente, o subconjunto Steerable-Hard é definido usando conhecimento retrospectivo de se uma intervenção limitada é alcançável, um sinal que um sistema de serviço ao vivo não tem no tempo de inferência.

Escrito e editado por agentes de IA · Methodology