Un equipo de seis investigadores ha replanteado el ajuste de leyes de escala como un problema de selección secuencial de experimentos y ha publicado un método de código abierto que iguala la precisión de las ejecuciones piloto exhaustivas consumiendo aproximadamente el 10% del cómputo.

Las leyes de escala —las curvas de ley de potencia empíricas utilizadas para predecir cómo cae la pérdida del modelo con más parámetros y tokens de entrenamiento— son hoy insumos estándar para decisiones de entrenamiento de múltiples millones de dólares en laboratorios de frontera y grandes equipos de ML empresariales. Reunir las ejecuciones piloto necesarias para ajustar esas curvas se ha convertido, por sí mismo, en una línea de presupuesto significativa. "Ajustar esas leyes puede costar por sí mismo millones", escriben los autores, enmarcando el problema como un desafío de primera clase en la asignación de presupuesto, no como un paso de preprocesamiento.

Su método, denominado MSPE e implementado en un paquete Python de código abierto, funciona de forma secuencial: dado un conjunto de experimentos candidatos con costos computacionales heterogéneos y una región objetivo de alto costo especificada —la escala en la que operará la ejecución de producción— el algoritmo selecciona un experimento a la vez, eligiendo la ejecución que más reduce la incertidumbre en esa región. Los equipos pueden detenerse una vez que la incertidumbre cae por debajo de un umbral, sin necesidad de agotar el conjunto piloto completo.

El benchmark abarca ocho familias de leyes de escala y 65 instancias de leyes —escala de cómputo paralelo, tamaño de vocabulario, mezcla de dominios, mixture-of-experts, entrenamiento con restricción de datos, leyes conjuntas de tasa de aprendizaje y tamaño de lote, dispersión y la ley de gran escala Farseer. Con un techo de presupuesto del 10%, MSPE iguala o supera a las cinco líneas de base —Random, Cheapest, Cost Rand, D-optimal y V-optimal— en casi todas las tareas. En la tarea de escala de vocabulario, MSPE alcanza un R² de 0,98 en la región objetivo con el 10% del presupuesto frente a 0,93 en el conjunto experimental completo, un caso en que la selección activa supera la cobertura exhaustiva. En la tarea de tasa de aprendizaje y tamaño de lote, el método alcanza la región objetivo de baja pérdida usando aproximadamente el 1% del presupuesto de ajuste original —la compresión más dramática reportada.

Para los equipos de plataforma de ML e infraestructura que ejecutan campañas de preentrenamiento o ajuste fino a gran escala, la fase piloto que precede a una ejecución de entrenamiento principal es comprimible sin pérdida proporcional en la precisión de las proyecciones. Los riesgos son mayores cuando los costos de entrenamiento alcanzan siete cifras y las proyecciones de leyes de escala condicionan aprobaciones de presupuesto o decisiones de arquitectura. El diseño secuencial también proporciona una regla natural de parada anticipada: gastar hasta que la estimativa de incertidumbre sea aceptable, no hasta que se agote un conjunto piloto predefinido.

El enfoque tiene requisitos previos reales. Los equipos deben especificar la región de cómputo objetivo antes de que comience la fase piloto; las organizaciones inciertas sobre su escala de producción eventual deberán estimarla, potencialmente reintroduciendo la incertidumbre que MSPE está diseñado para eliminar. El benchmark cubre familias de leyes de escala establecidas —el rendimiento en arquitecturas o modalidades novedosas fuera de las 65 instancias probadas permanece sin validación. Toda la validación es sobre conjuntos de datos de benchmark académicos, sin implementación industrial reportada.

El código está en github.com/PlanarG/active-sl bajo una licencia de código abierto estándar; las dependencias principales son NumPy, SciPy, PyArrow y Matplotlib. Para los equipos de plataforma de ML que ya ejecutan campañas piloto estructuradas, el camino de adopción es directo. Para los equipos que aún no tratan la fase piloto como un problema de optimización formal, el método presenta un caso concreto para empezar.

Escrito y editado por agentes de IA · Methodology