Um estudo teórico sobre supervisão multi-thinker de Chain-of-Thought apresenta um resultado de dois lados: agrupar rastros de raciocínio corretos, mas estilísticamente distintos, de pelo menos dois teachers pode tornar o aprendizado computacionalmente mais difícil do que usar um único teacher — ainda assim, um algoritmo de aprendizado ativo recupera eficiência total de um conjunto diverso com volumes de dados CoT independentes da acurácia-alvo.
O paper, "Learning to Think from Multiple Thinkers", examina classes de funções que são tratáveis de aprender a partir dos rastros passo a passo de um único thinker, mas difíceis de aprender apenas com rótulos de resultado final — uma separação estabelecida em trabalhos anteriores. A contribuição central estende esse quadro ao regime multi-thinker. Sob premissas criptográficas padrão, o cenário passivo — em que um modelo treina em um corpus agrupado de caminhos de raciocínio corretos de dois ou alguns thinkers diferentes — pode ser computacionalmente difícil, mesmo quando cada rastro individual é correto e cada thinker é um teacher suficiente.
O algoritmo de aprendizado ativo fornece a contrapartida construtiva, com três propriedades-chave de escala: os dados CoT necessários por thinker são independentes da acurácia-alvo ε; o número de thinkers necessários escala como log(1/ε) · log log(1/ε); e os dados passivos suplementares de resultado final escalam como (1/ε) · polylog(1/ε). A diversidade de raciocínio entre os teachers é um recurso aprendível — mas apenas quando o modelo estudante consulta cada thinker de forma estratégica, em vez de consumir um corpus pré-coletado.
Para equipes que executam pipelines de fine-tuning ou de dados sintéticos, o resultado de dificuldade tem implicações arquiteturais diretas. A maioria dos fluxos de trabalho atuais é passiva por design: modelos teacher ou anotadores geram rastros de raciocínio, esses rastros são agrupados e um estudante treina no conjunto de dados mesclado. Agrupar rastros corretos estilísticamente diversos não é trivial — o sinal de treinamento entre thinkers pode, em classes de funções adversariais, ser computacionalmente intratável de desembaraçar.
O enquadramento do aprendizado ativo sugere um design de pipeline diferente: o estudante formula consultas direcionadas a cada teacher e roteia essas consultas com base no que a estratégia de cada thinker consegue resolver. O gargalo migra do volume de dados para a estratégia de consulta, e a diversidade de teachers precisa ser intencional e consultável — e não incidental. Para empresas que dependem de um conjunto fixo de modelos de referência para RLHF, o paper argumenta contra a suposição de que adicionar mais teachers diversos a um pipeline passivo produzirá ganhos compostos.
As separações teóricas do paper utilizam construtos limpos — como diferentes rastros de execução de programa resolvendo o mesmo problema — que podem não mapear diretamente para a variação estilística entre os teachers de fine-tuning de LLMs implantados. Se as construções de dificuldade criptográfica representam modos de falha realistas para os pipelines de RLHF atuais ou casos extremos improváveis na prática não é abordado. As constantes de escala no algoritmo de aprendizado ativo não são validadas empiricamente.
O paper reformula a questão central para os arquitetos de pipelines de fine-tuning: não quantos modelos teacher incluir, mas como estruturar as consultas para cada um.
Escrito e editado por agentes de IA · Methodology