El agrupamiento multi-teacher de CoT puede ser computacionalmente difícil — las consultas activas lo resuelven

Un nuevo estudio teórico demuestra que la supervisión de Chain-of-Thought extraída de múltiples razonadores distintos — cada uno correcto pero con estrategias de solución diferentes — permite a los modelos aprender clases de funciones computacionalmente difíciles de adquirir a partir de etiquetas de resultado final o los rastros de un único razonador. El trabajo formaliza por qué la diversidad en la supervisión del razonamiento importa, con implicaciones para la forma en que las empresas estructuran los pipelines de generación de datos sintéticos y los conjuntos de modelos teacher para fine-tuning. A medida que los pipelines de RLHF dependen cada vez más de un pequeño conjunto de modelos de referencia, esta investigación argumenta que la diversidad de caminos de razonamiento es un recurso entrenable, no una fuente de ruido que filtrar.

Un estudio teórico sobre la supervisión multi-thinker de Chain-of-Thought arroja un resultado de dos lados: agrupar rastros de razonamiento correctos pero estilísticamente distintos de tan solo dos teachers puede hacer que el aprendizaje sea computacionalmente más difícil que con un único teacher — aunque un algoritmo de aprendizaje activo recupera la eficiencia total de un conjunto diverso con volúmenes de datos CoT independientes de la precisión objetivo.

El paper, "Learning to Think from Multiple Thinkers", examina clases de funciones que son tratables de aprender a partir de los rastros paso a paso de un único thinker, pero difíciles de aprender solo con etiquetas de resultado final — una separación establecida en trabajos previos. La contribución central extiende este panorama al régimen multi-thinker. Bajo supuestos criptográficos estándar, el escenario pasivo — donde un modelo entrena en un corpus agrupado de caminos de razonamiento correctos de dos o varios thinkers distintos — puede ser computacionalmente difícil, incluso cuando cada rastro individual es correcto y cada thinker es un teacher suficiente.

El algoritmo de aprendizaje activo proporciona la contraparte constructiva, con tres propiedades clave de escalado: los datos CoT requeridos por thinker son independientes de la precisión objetivo ε; el número de thinkers necesarios escala como log(1/ε) · log log(1/ε); y los datos pasivos suplementarios de resultado final escalan como (1/ε) · polylog(1/ε). La diversidad de razonamiento entre los teachers es un recurso aprendible — pero solo cuando el modelo estudiante consulta a cada thinker de forma estratégica, en lugar de consumir un corpus precolectado.

Para los equipos que ejecutan pipelines de fine-tuning o de datos sintéticos, el resultado de dificultad tiene implicaciones arquitectónicas directas. La mayoría de los flujos de trabajo actuales son pasivos por diseño: los modelos teacher o anotadores generan rastros de razonamiento, esos rastros se agrupan y un estudiante entrena con el conjunto de datos combinado. Agrupar rastros correctos estilísticamente diversos no es gratuito — la señal de entrenamiento entre thinkers puede, en clases de funciones adversariales, ser computacionalmente intratable de desenredar.

El enfoque de aprendizaje activo sugiere un diseño de pipeline diferente: el estudiante formula consultas dirigidas a cada teacher y las enruta según lo que la estrategia de cada thinker puede resolver. El cuello de botella se desplaza del volumen de datos a la estrategia de consulta, y la diversidad de teachers debe ser intencional y consultable — no incidental. Para las empresas que dependen de un conjunto fijo de modelos de referencia para RLHF, el paper argumenta en contra de asumir que agregar más teachers diversos a un pipeline pasivo producirá ganancias acumulativas.

Las separaciones teóricas del paper utilizan constructos limpios — como diferentes rastros de ejecución de programa que resuelven el mismo problema — que pueden no mapear directamente a la variación estilística entre los teachers de fine-tuning de LLMs desplegados. Si las construcciones de dificultad criptográfica representan modos de fallo realistas para los pipelines de RLHF actuales o casos extremos improbables en la práctica no se aborda. Las constantes de escala en el algoritmo de aprendizaje activo no están validadas empíricamente.

El paper reformula la pregunta central para los arquitectos de pipelines de fine-tuning: no cuántos modelos teacher incluir, sino cómo estructurar las consultas a cada uno.

Sources

Under cryptographic assumptions, passive learning from CoT supervision provided by two or a few different thinkers can be computationally hard
"under cryptographic assumptions, learning can be hard from CoT supervision provided by two or a few different thinkers, in passive data-collection settings"
arxiv.org ↗
The active learning algorithm requires CoT data per thinker independent of target accuracy ε, thinkers scaling as log(1/ε)·log log(1/ε), and end-result data scaling as (1/ε)·polylog(1/ε)
"a small amount of CoT data per thinker that is completely independent of the target accuracy ε, a moderate number of thinkers that scales as log(1/ε) log log(1/ε), and sufficient passive end-result data that scales as (1/ε)·poly log(1/ε)"
arxiv.org ↗
The paper studies function classes that are easy to learn using CoT from a single thinker but hard with only end-result supervision
"We consider classes that are computationally easy to learn using CoT supervision from a single thinker, but hard to learn with only end-result supervision, i.e., without CoT"
arxiv.org ↗
Multiple thinkers provide correct but possibly systematically different solutions, e.g. step-by-step solutions to math problems or execution traces of different programs solving the same problem
"all of whom provide correct but possibly systematically different solutions, e.g., step-by-step solutions to math problems written by different thinkers, or step-by-step execution traces of different programs solving the same problem"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

El agrupamiento multi-teacher de CoT puede ser computacionalmente difícil — las consultas activas lo resuelven

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.