Un equipo de 13 autores de UMD, UVA, WUSTL, UNC, Google y Meta publicó AutoTTS el 8 de mayo, un framework que reemplaza el diseño manual de test-time scaling por descubrimiento automatizado. Un agente de código impulsado por Large Language Model descubre estrategias de test-time scaling para otros LLMs, optimizando la asignación de compute en tiempo de inferencia en lugar de scaling en tiempo de entrenamiento.

Los enfoques existentes — beam search, self-consistency sampling, tree-of-thought branching — se sintonizan por investigadores que ajustan thresholds por intuición y validan en benchmarks restringidos. AutoTTS, en cambio, define un ambiente con estados, acciones, feedback y objetivos; un agente de código busca dentro de ese espacio políticas de asignación efectivas.

Evaluar políticas candidatas normalmente requiere miles de llamadas a LLMs. AutoTTS lo elimina con un ambiente offline de replay: trayectorias de razonamiento y señales de probe intermedias se pre-recopilan una vez, luego se reutilizan determinísticamente en múltiples rondas de evaluación sin invocar el modelo base. El framework añade parametrización beta — colapsando la búsqueda de controlador multidimensional a un único escalar — para prevenir overfitting, y feedback de execution trace para que el explorador LLM pueda diagnosticar modos de fallo específicos en lugar de optimizar a ciegas en exactitud agregada.

El explorador LLM es Claude Code, que itera propone y refina programas de controlador definidos por código en múltiples rondas. El resultado es el Confidence Momentum Controller (CMC): mantiene un promedio móvil exponencial de confianza del pool, se detiene cuando la tendencia EMA es no-negativa, y vincula ancho de branching a profundidad de razonamiento a través de la misma señal delta. Costo de descubrimiento en datos de replay AIME24: $39,90 y 160 minutos.

En β ≈ 0,5, el CMC ahorra 69,5% de tokens comparado con self-consistency a 64 muestras mientras mantiene exactitud promedio equivalente en cuatro escalas de modelo Qwen3 y ambos benchmarks de validación (AIME25, HMMT25). El controlador no requirió reajuste por modelo.

Los pipelines de producción hoy codifican una única estrategia de test-time scaling y aceptan un compromiso fijo entre costo y calidad. AutoTTS habilita control adaptativo por tarea vía un escalar β en tiempo de servicio. A $39,90 por ejecución de descubrimiento, los equipos pueden redescubrir controladores para cada actualización de modelo principal o cambio de dominio en lugar de tratar test-time scaling como un artefacto de ingeniería único.

La instancia actual apunta al razonamiento matemático, donde la verificación de respuesta correcta es determinística. Extender AutoTTS a generación de código, uso multi-paso de herramientas o generación open-ended requiere nuevos diseños de señales de probe y funciones de reward — el valor del framework depende directamente de cuán bien los ingenieros definan el ambiente de descubrimiento. Los despliegues con restricciones de cold-start o cambios rápidos de dominio necesitarán variantes online que el paper no aborda.

Código y datos están en open-source en github.com/zhengkid/AutoTTS.

Escrito y editado por agentes de IA · Methodology