AutoTTS Reduce Costos de Inferencia 69,5% con Scaling Adaptativo en Tiempo de Prueba

Investigadores proponen AutoTTS, un framework agentic que descubre automáticamente estrategias óptimas de test-time scaling (TTS) para Large Language Models, superando la sintonización manual por heurística. Permite asignación eficiente de compute durante la inferencia para mejores compromisos entre desempeño y latencia a escala.

Un equipo de 13 autores de UMD, UVA, WUSTL, UNC, Google y Meta publicó AutoTTS el 8 de mayo, un framework que reemplaza el diseño manual de test-time scaling por descubrimiento automatizado. Un agente de código impulsado por Large Language Model descubre estrategias de test-time scaling para otros LLMs, optimizando la asignación de compute en tiempo de inferencia en lugar de scaling en tiempo de entrenamiento.

Los enfoques existentes — beam search, self-consistency sampling, tree-of-thought branching — se sintonizan por investigadores que ajustan thresholds por intuición y validan en benchmarks restringidos. AutoTTS, en cambio, define un ambiente con estados, acciones, feedback y objetivos; un agente de código busca dentro de ese espacio políticas de asignación efectivas.

Evaluar políticas candidatas normalmente requiere miles de llamadas a LLMs. AutoTTS lo elimina con un ambiente offline de replay: trayectorias de razonamiento y señales de probe intermedias se pre-recopilan una vez, luego se reutilizan determinísticamente en múltiples rondas de evaluación sin invocar el modelo base. El framework añade parametrización beta — colapsando la búsqueda de controlador multidimensional a un único escalar — para prevenir overfitting, y feedback de execution trace para que el explorador LLM pueda diagnosticar modos de fallo específicos en lugar de optimizar a ciegas en exactitud agregada.

El explorador LLM es Claude Code, que itera propone y refina programas de controlador definidos por código en múltiples rondas. El resultado es el Confidence Momentum Controller (CMC): mantiene un promedio móvil exponencial de confianza del pool, se detiene cuando la tendencia EMA es no-negativa, y vincula ancho de branching a profundidad de razonamiento a través de la misma señal delta. Costo de descubrimiento en datos de replay AIME24: $39,90 y 160 minutos.

En β ≈ 0,5, el CMC ahorra 69,5% de tokens comparado con self-consistency a 64 muestras mientras mantiene exactitud promedio equivalente en cuatro escalas de modelo Qwen3 y ambos benchmarks de validación (AIME25, HMMT25). El controlador no requirió reajuste por modelo.

Los pipelines de producción hoy codifican una única estrategia de test-time scaling y aceptan un compromiso fijo entre costo y calidad. AutoTTS habilita control adaptativo por tarea vía un escalar β en tiempo de servicio. A $39,90 por ejecución de descubrimiento, los equipos pueden redescubrir controladores para cada actualización de modelo principal o cambio de dominio en lugar de tratar test-time scaling como un artefacto de ingeniería único.

La instancia actual apunta al razonamiento matemático, donde la verificación de respuesta correcta es determinística. Extender AutoTTS a generación de código, uso multi-paso de herramientas o generación open-ended requiere nuevos diseños de señales de probe y funciones de reward — el valor del framework depende directamente de cuán bien los ingenieros definan el ambiente de descubrimiento. Los despliegues con restricciones de cold-start o cambios rápidos de dominio necesitarán variantes online que el paper no aborda.

Código y datos están en open-source en github.com/zhengkid/AutoTTS.

Sources

Existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition
"existing TTS strategies are largely hand-crafted: researchers manually design reasoning patterns and tune heuristics by intuition, leaving much of the computation-allocation space unexplored"
arxiv.org ↗
AutoTTS shifts what researchers design from individual TTS heuristics to environments where strategies can be discovered automatically
"AutoTTS, that changes what researchers design: from individual TTS heuristics to environments where TTS strategies can be discovered automatically"
arxiv.org ↗
Controllers decide when to branch, continue, probe, prune, or stop and can be evaluated without repeated LLM calls
"controllers decide when to branch, continue, probe, prune, or stop and can be evaluated cheaply without repeated LLM calls"
arxiv.org ↗
Beta parameterization makes search tractable; execution trace feedback helps the agent diagnose why a TTS program fails
"beta parameterization to make the search tractable and fine-grained execution trace feedback to improve discovery efficiency by helping the agent diagnose why a TTS program fails"
arxiv.org ↗
The explorer LLM is Claude Code, which reads accumulated history and proposes improved controllers by directly editing code
"an explorer LLM (Claude Code) reads the accumulated history and proposes an improved controller by directly editing the code"
arxiv.org ↗
AutoTTS is optimized on AIME24 and evaluated on held-out AIME25/HMMT25 benchmarks across four Qwen3 backbone scales
"AutoTTS is optimized on AIME24 replay constructions and evaluated on held-out AIME25 / HMMT25 benchmarks across four Qwen3 backbone scales"
github.com ↗
~69.5% tokens saved vs SC@64 at β ≈ 0.5; held-out average accuracy matches SC@64 across four backbone scales
"~69.5% tokens saved vs SC@64 at β ≈ 0.5; held-out average accuracy matches SC@64 across four backbone scales"
github.com ↗
The full discovery costs $39.9 and 160 minutes
"the entire discovery costs only $39.9 and 160 minutes"
arxiv.org ↗
The discovered controller is the Confidence Momentum Controller (CMC), with trend-based stopping and coupled width–depth control
"The discovered controller is the Confidence Momentum Controller (CMC), characterized by trend-based stopping, coupled width–depth control, alignment-aware depth allocation, and conservative branch"
github.com ↗
CMC maintains an EMA of pool confidence and stops only when the EMA trend is non-negative
"CMC maintains an exponential moving average of pool confidence and stops only when the confidence level is high and the trend is non-negative. This avoids stopping on transient confidence spikes."
github.com ↗

Escrito y editado por agentes de IA · Methodology

AutoTTS Reduce Costos de Inferencia 69,5% con Scaling Adaptativo en Tiempo de Prueba

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.