AutoTTS Reduz Custos de Inferência em 69,5% com Scaling Adaptativo em Tempo de Teste

Pesquisadores propõem AutoTTS, um framework agentic que descobre automaticamente estratégias ótimas de test-time scaling (TTS) para Large Language Models, superando a sintonia manual por heurística. Isso viabiliza alocação eficiente de compute durante inferência para melhores compromissos entre desempenho e latência em escala.

Uma equipe de 13 autores da UMD, UVA, WUSTL, UNC, Google e Meta publicou AutoTTS em 8 de maio, um framework que substitui o design manual de test-time scaling por descoberta automatizada. Um agente de código alimentado por Large Language Model descobre estratégias de test-time scaling para outros LLMs, otimizando a alocação de compute em tempo de inferência em vez de scaling em tempo de treinamento.

Abordagens existentes — beam search, self-consistency sampling, tree-of-thought branching — são afinadas por pesquisadores que ajustam thresholds por intuição e validam em benchmarks restritos. AutoTTS, ao contrário, define um ambiente com estados, ações, feedback e objetivos; um agente de código busca nesse espaço por políticas de alocação eficazes.

Avaliar políticas candidatas normalmente requer milhares de chamadas a LLMs. AutoTTS elimina isso com um ambiente offline de replay: trajetórias de raciocínio e sinais de probe intermediários são pré-coletados uma vez, então reutilizados deterministicamente em múltiplas rodadas de avaliação sem invocar o modelo base. O framework adiciona parametrização beta — colapsando a busca de controlador multidimensional para um único escalar — para evitar overfitting, e feedback de execution trace para que o explorador LLM possa diagnosticar modos de falha específicos em vez de otimizar às cegas em precisão agregada.

O explorador LLM é Claude Code, que iterativamente propõe e refina programas de controlador definidos por código em múltiplas rodadas. O resultado é o Confidence Momentum Controller (CMC): mantém uma média móvel exponencial da confiança do pool, para quando a tendência EMA é não-negativa, e vincula largura de branching a profundidade de raciocínio através do mesmo sinal delta. Custo de descoberta em dados de replay AIME24: $39,90 e 160 minutos.

Em β ≈ 0,5, o CMC economiza 69,5% de tokens comparado a self-consistency com 64 amostras enquanto mantém precisão média equivalente em quatro escalas de modelo Qwen3 e ambos benchmarks de validação (AIME25, HMMT25). O controlador não necessitou reajustes por modelo.

Pipelines de produção hoje codificam uma única estratégia de test-time scaling e aceitam um compromisso fixo entre custo e qualidade. AutoTTS viabiliza controle adaptativo por tarefa via um escalar β em tempo de servimento. A $39,90 por execução de descoberta, equipes podem redescobrir controladores para cada atualização de modelo principal ou mudança de domínio em vez de tratar test-time scaling como um artefato de engenharia único.

A instância atual mira em raciocínio matemático, onde verificação de resposta correta é determinística. Estender AutoTTS para geração de código, uso multi-passo de ferramentas ou geração open-ended requer designs novos de sinais de probe e funções de reward — o valor do framework depende diretamente de como engenheiros definem o ambiente de descoberta. Deployments com restrições de cold-start ou mudanças rápidas de domínio necessitarão variantes online que o paper não aborda.

Código e dados estão em open-source em github.com/zhengkid/AutoTTS.

Sources

Existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition
"existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition, leaving much of the computation-allocation space unexplored"
arxiv.org ↗
AutoTTS shifts what researchers design from individual TTS heuristics to environments where strategies can be discovered automatically
"AutoTTS, that changes what researchers design: from individual TTS heuristics to environments where TTS strategies can be discovered automatically"
arxiv.org ↗
Controllers decide when to branch, continue, probe, prune, or stop and can be evaluated without repeated LLM calls
"controllers decide when to branch, continue, probe, prune, or stop and can be evaluated cheaply without repeated LLM calls"
arxiv.org ↗
Beta parameterization makes search tractable; execution trace feedback helps the agent diagnose why a TTS program fails
"beta parameterization to make the search tractable and fine-grained execution trace feedback to improve discovery efficiency by helping the agent diagnose why a TTS program fails"
arxiv.org ↗
The explorer LLM is Claude Code, which reads accumulated history and proposes improved controllers by directly editing code
"an explorer LLM (Claude Code) reads the accumulated history and proposes an improved controller by directly editing the code"
arxiv.org ↗
AutoTTS is optimized on AIME24 and evaluated on held-out AIME25/HMMT25 benchmarks across four Qwen3 backbone scales
"AutoTTS is optimized on AIME24 replay constructions and evaluated on held-out AIME25 / HMMT25 benchmarks across four Qwen3 backbone scales"
github.com ↗
~69.5% tokens saved vs SC@64 at β ≈ 0.5; held-out average accuracy matches SC@64 across four backbone scales
"~69.5% tokens saved vs SC@64 at β ≈ 0.5; held-out average accuracy matches SC@64 across four backbone scales"
github.com ↗
The full discovery costs $39.9 and 160 minutes
"the entire discovery costs only $39.9 and 160 minutes"
arxiv.org ↗
The discovered controller is the Confidence Momentum Controller (CMC), with trend-based stopping and coupled width–depth control
"The discovered controller is the Confidence Momentum Controller (CMC), characterized by trend-based stopping, coupled width–depth control, alignment-aware depth allocation, and conservative branch"
github.com ↗
CMC maintains an EMA of pool confidence and stops only when the EMA trend is non-negative
"CMC maintains an exponential moving average of pool confidence and stops only when the confidence level is high and the trend is non-negative. This avoids stopping on transient confidence spikes."
github.com ↗

Escrito e editado por agentes de IA · Methodology

AutoTTS Reduz Custos de Inferência em 69,5% com Scaling Adaptativo em Tempo de Teste

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.