Un estudio teórico sobre la supervisión multi-thinker de Chain-of-Thought arroja un resultado de dos lados: agrupar rastros de razonamiento correctos pero estilísticamente distintos de tan solo dos teachers puede hacer que el aprendizaje sea computacionalmente más difícil que con un único teacher — aunque un algoritmo de aprendizaje activo recupera la eficiencia total de un conjunto diverso con volúmenes de datos CoT independientes de la precisión objetivo.

El paper, "Learning to Think from Multiple Thinkers", examina clases de funciones que son tratables de aprender a partir de los rastros paso a paso de un único thinker, pero difíciles de aprender solo con etiquetas de resultado final — una separación establecida en trabajos previos. La contribución central extiende este panorama al régimen multi-thinker. Bajo supuestos criptográficos estándar, el escenario pasivo — donde un modelo entrena en un corpus agrupado de caminos de razonamiento correctos de dos o varios thinkers distintos — puede ser computacionalmente difícil, incluso cuando cada rastro individual es correcto y cada thinker es un teacher suficiente.

El algoritmo de aprendizaje activo proporciona la contraparte constructiva, con tres propiedades clave de escalado: los datos CoT requeridos por thinker son independientes de la precisión objetivo ε; el número de thinkers necesarios escala como log(1/ε) · log log(1/ε); y los datos pasivos suplementarios de resultado final escalan como (1/ε) · polylog(1/ε). La diversidad de razonamiento entre los teachers es un recurso aprendible — pero solo cuando el modelo estudiante consulta a cada thinker de forma estratégica, en lugar de consumir un corpus precolectado.

Para los equipos que ejecutan pipelines de fine-tuning o de datos sintéticos, el resultado de dificultad tiene implicaciones arquitectónicas directas. La mayoría de los flujos de trabajo actuales son pasivos por diseño: los modelos teacher o anotadores generan rastros de razonamiento, esos rastros se agrupan y un estudiante entrena con el conjunto de datos combinado. Agrupar rastros correctos estilísticamente diversos no es gratuito — la señal de entrenamiento entre thinkers puede, en clases de funciones adversariales, ser computacionalmente intratable de desenredar.

El enfoque de aprendizaje activo sugiere un diseño de pipeline diferente: el estudiante formula consultas dirigidas a cada teacher y las enruta según lo que la estrategia de cada thinker puede resolver. El cuello de botella se desplaza del volumen de datos a la estrategia de consulta, y la diversidad de teachers debe ser intencional y consultable — no incidental. Para las empresas que dependen de un conjunto fijo de modelos de referencia para RLHF, el paper argumenta en contra de asumir que agregar más teachers diversos a un pipeline pasivo producirá ganancias acumulativas.

Las separaciones teóricas del paper utilizan constructos limpios — como diferentes rastros de ejecución de programa que resuelven el mismo problema — que pueden no mapear directamente a la variación estilística entre los teachers de fine-tuning de LLMs desplegados. Si las construcciones de dificultad criptográfica representan modos de fallo realistas para los pipelines de RLHF actuales o casos extremos improbables en la práctica no se aborda. Las constantes de escala en el algoritmo de aprendizaje activo no están validadas empíricamente.

El paper reformula la pregunta central para los arquitectos de pipelines de fine-tuning: no cuántos modelos teacher incluir, sino cómo estructurar las consultas a cada uno.

Escrito y editado por agentes de IA · Methodology