O agrupamento multi-teacher de CoT pode ser computacionalmente difícil — consultas ativas resolvem o problema

Um novo estudo teórico mostra que a supervisão de Chain-of-Thought extraída de múltiplos raciocínios distintos — cada um correto, mas utilizando estratégias de solução diferentes — permite que modelos aprendam classes de funções computacionalmente difíceis de adquirir a partir de rótulos de resultado final ou dos rastros de um único raciocínio. O trabalho formaliza por que a diversidade na supervisão de raciocínio importa, com implicações para como empresas estruturam pipelines de geração de dados sintéticos e conjuntos de modelos teacher para fine-tuning. À medida que os pipelines de RLHF dependem cada vez mais de um pequeno conjunto de modelos de referência, esta pesquisa argumenta que a diversidade de caminhos de raciocínio é um recurso treinável, não uma fonte de ruído a ser filtrada.

Um estudo teórico sobre supervisão multi-thinker de Chain-of-Thought apresenta um resultado de dois lados: agrupar rastros de raciocínio corretos, mas estilísticamente distintos, de pelo menos dois teachers pode tornar o aprendizado computacionalmente mais difícil do que usar um único teacher — ainda assim, um algoritmo de aprendizado ativo recupera eficiência total de um conjunto diverso com volumes de dados CoT independentes da acurácia-alvo.

O paper, "Learning to Think from Multiple Thinkers", examina classes de funções que são tratáveis de aprender a partir dos rastros passo a passo de um único thinker, mas difíceis de aprender apenas com rótulos de resultado final — uma separação estabelecida em trabalhos anteriores. A contribuição central estende esse quadro ao regime multi-thinker. Sob premissas criptográficas padrão, o cenário passivo — em que um modelo treina em um corpus agrupado de caminhos de raciocínio corretos de dois ou alguns thinkers diferentes — pode ser computacionalmente difícil, mesmo quando cada rastro individual é correto e cada thinker é um teacher suficiente.

O algoritmo de aprendizado ativo fornece a contrapartida construtiva, com três propriedades-chave de escala: os dados CoT necessários por thinker são independentes da acurácia-alvo ε; o número de thinkers necessários escala como log(1/ε) · log log(1/ε); e os dados passivos suplementares de resultado final escalam como (1/ε) · polylog(1/ε). A diversidade de raciocínio entre os teachers é um recurso aprendível — mas apenas quando o modelo estudante consulta cada thinker de forma estratégica, em vez de consumir um corpus pré-coletado.

Para equipes que executam pipelines de fine-tuning ou de dados sintéticos, o resultado de dificuldade tem implicações arquiteturais diretas. A maioria dos fluxos de trabalho atuais é passiva por design: modelos teacher ou anotadores geram rastros de raciocínio, esses rastros são agrupados e um estudante treina no conjunto de dados mesclado. Agrupar rastros corretos estilísticamente diversos não é trivial — o sinal de treinamento entre thinkers pode, em classes de funções adversariais, ser computacionalmente intratável de desembaraçar.

O enquadramento do aprendizado ativo sugere um design de pipeline diferente: o estudante formula consultas direcionadas a cada teacher e roteia essas consultas com base no que a estratégia de cada thinker consegue resolver. O gargalo migra do volume de dados para a estratégia de consulta, e a diversidade de teachers precisa ser intencional e consultável — e não incidental. Para empresas que dependem de um conjunto fixo de modelos de referência para RLHF, o paper argumenta contra a suposição de que adicionar mais teachers diversos a um pipeline passivo produzirá ganhos compostos.

As separações teóricas do paper utilizam construtos limpos — como diferentes rastros de execução de programa resolvendo o mesmo problema — que podem não mapear diretamente para a variação estilística entre os teachers de fine-tuning de LLMs implantados. Se as construções de dificuldade criptográfica representam modos de falha realistas para os pipelines de RLHF atuais ou casos extremos improváveis na prática não é abordado. As constantes de escala no algoritmo de aprendizado ativo não são validadas empiricamente.

O paper reformula a questão central para os arquitetos de pipelines de fine-tuning: não quantos modelos teacher incluir, mas como estruturar as consultas para cada um.

Sources

Under cryptographic assumptions, passive learning from CoT supervision provided by two or a few different thinkers can be computationally hard
"under cryptographic assumptions, learning can be hard from CoT supervision provided by two or a few different thinkers, in passive data-collection settings"
arxiv.org ↗
The active learning algorithm requires CoT data per thinker independent of target accuracy ε, thinkers scaling as log(1/ε)·log log(1/ε), and end-result data scaling as (1/ε)·polylog(1/ε)
"a small amount of CoT data per thinker that is completely independent of the target accuracy ε, a moderate number of thinkers that scales as log(1/ε) log log(1/ε), and sufficient passive end-result data that scales as (1/ε)·poly log(1/ε)"
arxiv.org ↗
The paper studies function classes that are easy to learn using CoT from a single thinker but hard with only end-result supervision
"We consider classes that are computationally easy to learn using CoT supervision from a single thinker, but hard to learn with only end-result supervision, i.e., without CoT"
arxiv.org ↗
Multiple thinkers provide correct but possibly systematically different solutions, e.g. step-by-step solutions to math problems or execution traces of different programs solving the same problem
"all of whom provide correct but possibly systematically different solutions, e.g., step-by-step solutions to math problems written by different thinkers, or step-by-step execution traces of different programs solving the same problem"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

O agrupamento multi-teacher de CoT pode ser computacionalmente difícil — consultas ativas resolvem o problema

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.