Un consorcio de 50 personas abarcando Stanford, UC Berkeley, UT Austin, NYU, LAION y una docena de otras instituciones lanzó OpenThoughts-Agent el 23 de junio—un pipeline completamente abierto de curación de datos para entrenar modelos agentes entre dominios. El conjunto de entrenamiento con 100K ejemplos y 100+ experimentos de ablación muestran que ajustar finamente Qwen3-32B en este dataset produce 44.8% de precisión promedio en siete benchmarks de agentes, una mejora de 3.9 puntos porcentuales sobre el líder anterior de datos abiertos Nemotron-Terminal-32B en 40.9%. Conjuntos de entrenamiento, código de pipeline, registros experimentales y pesos de modelos están todos públicos en openthoughts.ai.

El problema central es el overfitting a benchmarks estrechos. Los esfuerzos existentes de entrenamiento abierto—SWE-Smith, SERA, Nemotron-Terminal—cada uno optimiza para un único benchmark, causando que los modelos entrenados en ellos generalicen mal fuera de su distribución objetivo. OT-Agent agrega fuentes de tareas entre dominios y demuestra a través de comparaciones controladas por computación que el dataset resultante supera a alternativas de dominio único en cada tamaño de conjunto de entrenamiento.

El pipeline SFT demuestra el rigor de sourcing de datos del equipo. Probaron 15 enfoques de generación de instrucciones, abarcando corpus establecidos (Nemo, SWESmith, Mind2Web) y novedosos (StackExchange Overflow, Freelancer, Taskmaster). Para cada fuente, aproximadamente 10.000 tareas fueron generadas y resueltas una vez por GPT-5-Nano para producir trazas. El dataset SFT resultante de ~15.000 trazas (OpenThoughts-Agent-v1-SFT) extrae de NL2Bash e InferredBugs, una colección de errores en C# y Java originalmente reunida por Microsoft. La etapa SFT usa Llama-Factory y apunta a Qwen3-8B para el lanzamiento del modelo v1. Un hallazgo no obvio: cambiar el modelo maestro dentro de la familia GPT no produjo ganancia medible, pero cambiar a GLM-4.6 como maestro aproximadamente duplicó las puntuaciones downstream—un resultado con implicaciones directas para cualquiera que elija un generador de trazas.

El pipeline de datos RL muestra disciplina de filtración. Partiendo de ~10.000 tareas NL2Bash generadas sintéticamente, el equipo ejecutó tres etapas de poda: descartar tareas con verificadores defectuosos o lentos, remover tareas cuyos entornos Docker se crean o desactivan demasiado lentamente, y descartar cualquier tarea en la que GPT-5 Codex obtenga recompensa cero. Las 700 tareas que sobrevivieron se convirtieron en el dataset RL de ~720 tarefas (OpenThoughts-Agent-v1-RL). RL sobre el punto de control SFT mejoró OpenThoughts-TB-Dev en ~2 puntos porcentuales (16.1% a 17.3%) y SWE-Bench Verified en 1%. Terminal-Bench 2.0 se mantuvo plano en 4.9% después de RL—los datos RL de NL2Bash cubren solo un subconjunto de los patrones de tareas TB2.0, lo que el equipo señala explícitamente.

Cada tarea se define como una tripla: un archivo de instrucción markdown, un entorno Docker y un verificador pytest. Todos los entornos v1 utilizan Dockerfiles Ubuntu genéricos. El framework de evaluación incluye OpenThoughts-TB-Dev, un nuevo benchmark que comprende 70 tareas de agente terminal calibradas para ser manejables para modelos pequeños mientras se correlacionan fuertemente con Terminal-Bench 2.0. El equipo construyó un visualizador de trazas SFT para hacer inspeccionables los rollouts largos de agentes y mantiene un leaderboard en vivo rastreando 300+ modelos entrenados hasta ahora.

La restricción vinculante es la fragilidad del verificador. Una fracción sustancial de tareas generadas falla en puertas de calidad antes de que cualquier modelo se entrene en ellas: contenedores que agotan el tiempo, verificadores que producen señales inconsistentes de aprobación/fallo, tareas tan difíciles que incluso los modelos fronterizos reciben recompensa cero. El pipeline de filtración de tres etapas es la respuesta actual del equipo, pero la tasa de desgaste de 10.000 a 700 en tareas RL (caída del 93%) señala que la construcción escalable y confiable de verificadores sigue siendo la restricción vinculante en el crecimiento del dataset de agentes.

Si está construyendo un agente de dominio personalizado y considerando la compensación fine-tune-vs-prompt, el pipeline de datos OT-Agent y las recetas de curación ahora son la referencia abierta más completamente documentada para el lado training-data de esa decisión.

Escrito y editado por agentes de IA · Methodology