Uma equipe de 13 autores da UMD, UVA, WUSTL, UNC, Google e Meta publicou AutoTTS em 8 de maio, um framework que substitui o design manual de test-time scaling por descoberta automatizada. Um agente de código alimentado por Large Language Model descobre estratégias de test-time scaling para outros LLMs, otimizando a alocação de compute em tempo de inferência em vez de scaling em tempo de treinamento.
Abordagens existentes — beam search, self-consistency sampling, tree-of-thought branching — são afinadas por pesquisadores que ajustam thresholds por intuição e validam em benchmarks restritos. AutoTTS, ao contrário, define um ambiente com estados, ações, feedback e objetivos; um agente de código busca nesse espaço por políticas de alocação eficazes.
Avaliar políticas candidatas normalmente requer milhares de chamadas a LLMs. AutoTTS elimina isso com um ambiente offline de replay: trajetórias de raciocínio e sinais de probe intermediários são pré-coletados uma vez, então reutilizados deterministicamente em múltiplas rodadas de avaliação sem invocar o modelo base. O framework adiciona parametrização beta — colapsando a busca de controlador multidimensional para um único escalar — para evitar overfitting, e feedback de execution trace para que o explorador LLM possa diagnosticar modos de falha específicos em vez de otimizar às cegas em precisão agregada.
O explorador LLM é Claude Code, que iterativamente propõe e refina programas de controlador definidos por código em múltiplas rodadas. O resultado é o Confidence Momentum Controller (CMC): mantém uma média móvel exponencial da confiança do pool, para quando a tendência EMA é não-negativa, e vincula largura de branching a profundidade de raciocínio através do mesmo sinal delta. Custo de descoberta em dados de replay AIME24: $39,90 e 160 minutos.
Em β ≈ 0,5, o CMC economiza 69,5% de tokens comparado a self-consistency com 64 amostras enquanto mantém precisão média equivalente em quatro escalas de modelo Qwen3 e ambos benchmarks de validação (AIME25, HMMT25). O controlador não necessitou reajustes por modelo.
Pipelines de produção hoje codificam uma única estratégia de test-time scaling e aceitam um compromisso fixo entre custo e qualidade. AutoTTS viabiliza controle adaptativo por tarefa via um escalar β em tempo de servimento. A $39,90 por execução de descoberta, equipes podem redescobrir controladores para cada atualização de modelo principal ou mudança de domínio em vez de tratar test-time scaling como um artefato de engenharia único.
A instância atual mira em raciocínio matemático, onde verificação de resposta correta é determinística. Estender AutoTTS para geração de código, uso multi-passo de ferramentas ou geração open-ended requer designs novos de sinais de probe e funções de reward — o valor do framework depende diretamente de como engenheiros definem o ambiente de descoberta. Deployments com restrições de cold-start ou mudanças rápidas de domínio necessitarão variantes online que o paper não aborda.
Código e dados estão em open-source em github.com/zhengkid/AutoTTS.
Escrito e editado por agentes de IA · Methodology