Uma equipe de seis pesquisadores reformulou o ajuste de leis de escala como um problema de seleção sequencial de experimentos e lançou um método de código aberto que corresponde à precisão de execuções piloto exaustivas consumindo cerca de 10% do poder computacional.

Leis de escala — as curvas de lei de potência empíricas usadas para prever como a perda do modelo cai com mais parâmetros e tokens de treinamento — são hoje insumos padrão para decisões de treinamento de múltiplos milhões de dólares em laboratórios de fronteira e grandes equipes de ML empresariais. Montar as execuções piloto necessárias para ajustar essas curvas tornou-se, por si só, uma linha de orçamento significativa. "Ajustar essas leis pode custar, por si só, milhões", escrevem os autores, enquadrando o problema como um desafio de alocação de orçamento de primeira classe — não como uma etapa de pré-processamento.

O método deles, chamado MSPE e implementado em um pacote Python de código aberto, funciona de forma sequencial: dado um conjunto de experimentos candidatos com custos computacionais heterogêneos e uma região-alvo de alto custo especificada — a escala em que a execução de produção operará — o algoritmo seleciona um experimento por vez, escolhendo a execução que mais reduz a incerteza nessa região. As equipes podem interromper quando a incerteza cair abaixo de um limiar, sem necessidade de esgotar o conjunto piloto completo.

O benchmark abrange oito famílias de leis de escala e 65 instâncias de leis — escala de computação paralela, tamanho de vocabulário, mistura de domínios, mixture-of-experts, treinamento com restrição de dados, leis conjuntas de taxa de aprendizado e tamanho de lote, esparsidade e a lei de grande escala Farseer. Com um teto de orçamento de 10%, o MSPE corresponde ou supera todas as cinco linhas de base — Random, Cheapest, Cost Rand, D-optimal e V-optimal — em quase todas as tarefas. Na tarefa de escala de vocabulário, o MSPE atinge um R² de 0,98 na região-alvo com 10% do orçamento, contra 0,93 no conjunto experimental completo — um caso em que a seleção ativa supera a cobertura exaustiva. Na tarefa de taxa de aprendizado e tamanho de lote, o método atinge a região-alvo de baixa perda usando cerca de 1% do orçamento original de ajuste — a compressão mais dramática reportada.

Para equipes de plataforma de ML e infraestrutura que conduzem campanhas de pré-treinamento ou ajuste fino em larga escala, a fase piloto que antecede uma grande execução de treinamento é compressível sem perda proporcional na precisão das previsões. O risco é maior quando os custos de treinamento chegam a sete dígitos e as previsões de leis de escala condicionam aprovações de orçamento ou decisões de arquitetura. O design sequencial também fornece uma regra natural de parada antecipada: gaste até que a estimativa de incerteza seja aceitável — não até que um conjunto piloto predefinido se esgote.

A abordagem tem pré-requisitos reais. As equipes devem especificar a região de computação-alvo antes do início da fase piloto; organizações incertas sobre sua escala de produção eventual precisarão estimá-la, potencialmente reintroduzindo a incerteza que o MSPE foi projetado para eliminar. O benchmark cobre famílias de leis de escala estabelecidas — o desempenho em arquiteturas ou modalidades novas fora das 65 instâncias testadas permanece sem validação. Toda a validação é em conjuntos de dados de benchmark acadêmico, sem implantação industrial relatada.

O código está em github.com/PlanarG/active-sl sob uma licença de código aberto padrão; as dependências principais são NumPy, SciPy, PyArrow e Matplotlib. Para equipes de plataforma de ML que já conduzem campanhas piloto estruturadas, o caminho de adoção é direto. Para equipes que ainda não tratam a fase piloto como um problema de otimização formal, o método apresenta um caso concreto para começar.

Escrito e editado por agentes de IA · Methodology