Dataset OpenThoughts-Agent Alcanza 44.8% en Benchmarks de Agentes

Un consorcio de 50 personas abarcando Stanford, UC Berkeley, UT Austin, NYU, LAION y una docena de otras instituciones lanzó OpenThoughts-Agent el 23 de junio—un pipeline completamente abierto de curación de datos para entrenar modelos agentes entre dominios. El conjunto de entrenamiento con 100K ejemplos y 100+ experimentos de ablación muestran que ajustar finamente Qwen3-32B en este dataset produce 44.8% de precisión promedio en siete benchmarks de agentes, una mejora de 3.9 puntos porcentuales sobre el líder anterior de datos abiertos Nemotron-Terminal-32B en 40.9%. Conjuntos de entrenamiento, código de pipeline, registros experimentales y pesos de modelos están todos públicos en openthoughts.ai.

El problema central es el overfitting a benchmarks estrechos. Los esfuerzos existentes de entrenamiento abierto—SWE-Smith, SERA, Nemotron-Terminal—cada uno optimiza para un único benchmark, causando que los modelos entrenados en ellos generalicen mal fuera de su distribución objetivo. OT-Agent agrega fuentes de tareas entre dominios y demuestra a través de comparaciones controladas por computación que el dataset resultante supera a alternativas de dominio único en cada tamaño de conjunto de entrenamiento.

El pipeline SFT demuestra el rigor de sourcing de datos del equipo. Probaron 15 enfoques de generación de instrucciones, abarcando corpus establecidos (Nemo, SWESmith, Mind2Web) y novedosos (StackExchange Overflow, Freelancer, Taskmaster). Para cada fuente, aproximadamente 10.000 tareas fueron generadas y resueltas una vez por GPT-5-Nano para producir trazas. El dataset SFT resultante de ~15.000 trazas (OpenThoughts-Agent-v1-SFT) extrae de NL2Bash e InferredBugs, una colección de errores en C# y Java originalmente reunida por Microsoft. La etapa SFT usa Llama-Factory y apunta a Qwen3-8B para el lanzamiento del modelo v1. Un hallazgo no obvio: cambiar el modelo maestro dentro de la familia GPT no produjo ganancia medible, pero cambiar a GLM-4.6 como maestro aproximadamente duplicó las puntuaciones downstream—un resultado con implicaciones directas para cualquiera que elija un generador de trazas.

El pipeline de datos RL muestra disciplina de filtración. Partiendo de ~10.000 tareas NL2Bash generadas sintéticamente, el equipo ejecutó tres etapas de poda: descartar tareas con verificadores defectuosos o lentos, remover tareas cuyos entornos Docker se crean o desactivan demasiado lentamente, y descartar cualquier tarea en la que GPT-5 Codex obtenga recompensa cero. Las 700 tareas que sobrevivieron se convirtieron en el dataset RL de ~720 tarefas (OpenThoughts-Agent-v1-RL). RL sobre el punto de control SFT mejoró OpenThoughts-TB-Dev en ~2 puntos porcentuales (16.1% a 17.3%) y SWE-Bench Verified en 1%. Terminal-Bench 2.0 se mantuvo plano en 4.9% después de RL—los datos RL de NL2Bash cubren solo un subconjunto de los patrones de tareas TB2.0, lo que el equipo señala explícitamente.

Cada tarea se define como una tripla: un archivo de instrucción markdown, un entorno Docker y un verificador pytest. Todos los entornos v1 utilizan Dockerfiles Ubuntu genéricos. El framework de evaluación incluye OpenThoughts-TB-Dev, un nuevo benchmark que comprende 70 tareas de agente terminal calibradas para ser manejables para modelos pequeños mientras se correlacionan fuertemente con Terminal-Bench 2.0. El equipo construyó un visualizador de trazas SFT para hacer inspeccionables los rollouts largos de agentes y mantiene un leaderboard en vivo rastreando 300+ modelos entrenados hasta ahora.

La restricción vinculante es la fragilidad del verificador. Una fracción sustancial de tareas generadas falla en puertas de calidad antes de que cualquier modelo se entrene en ellas: contenedores que agotan el tiempo, verificadores que producen señales inconsistentes de aprobación/fallo, tareas tan difíciles que incluso los modelos fronterizos reciben recompensa cero. El pipeline de filtración de tres etapas es la respuesta actual del equipo, pero la tasa de desgaste de 10.000 a 700 en tareas RL (caída del 93%) señala que la construcción escalable y confiable de verificadores sigue siendo la restricción vinculante en el crecimiento del dataset de agentes.

Si está construyendo un agente de dominio personalizado y considerando la compensación fine-tune-vs-prompt, el pipeline de datos OT-Agent y las recetas de curación ahora son la referencia abierta más completamente documentada para el lado training-data de esa decisión.

Sources

Fine-tuning Qwen3-32B on the 100K-example dataset hits 44.8% average accuracy across seven agentic benchmarks, a 3.9pp improvement over Nemotron-Terminal-32B at 40.9%
"we assemble a training set of 100K examples from our pipeline and fine-tune Qwen3-32B on this dataset, which yields an average accuracy of 44.8% across seven agentic benchmarks and a 3.9 percentage point improvement over the strongest existing open data agentic model (Nemotron-Terminal-32B, 40.9%)"
arxiv.org ↗
100+ controlled ablation experiments were run to investigate each stage of the curation pipeline
"We conduct more than 100 controlled ablation experiments to systematically investigate each stage of the pipeline"
arxiv.org ↗
Training data exhibits strong scaling properties, outperforming alternative open datasets at every training set size in compute-controlled comparisons
"our training data exhibits strong scaling properties, outperforming alternative open datasets at every training set size in compute-controlled comparisons"
arxiv.org ↗
Existing open efforts — SWE-Smith, SERA, Nemotron-Terminal — typically target a single benchmark, leaving generalization across diverse agentic tasks unsolved
"Existing open efforts such as SWE-Smith, SERA, and Nemotron-Terminal typically target a single benchmark, leaving open the question of how to train models that generalize across diverse agentic tasks"
arxiv.org ↗
15 instruction-sourcing approaches were ablated; SFT-v1 dataset has ~15,000 traces from NL2Bash and InferredBugs
"we ablated 15 different approaches, selecting from both existing sources such as Nemo, SWESmith and Mind2Web, and those we created, such as StackExchange Overflow, Freelancer and Taskmaster"
openthoughts.ai ↗
Switching to GLM-4.6 as teacher led to ~2× improvement in downstream score versus GPT-family teachers
"varying teachers in the GPT model family did not improve performance. However, using GLM-4.6 as a teacher led to almost a 2x improvement in downstream score"
openthoughts.ai ↗
RL dataset is ~720 tasks filtered down from ~10,000 generated candidates via a three-stage filtration pipeline
"This results in a set of approximately 700 tasks (from 10,000 originally generated tasks)"
openthoughts.ai ↗
RL training uses SkyRL integrated with Harbor; yields +~2% on TB-Dev and +1% on SWE-Bench Verified over the SFT-only baseline
"Conducting RL on our SFT-only model using our RL data, OpenThoughts-Agent-v1-RL, we get a small improvement on our development set of around ~2% and an improvement of 1% on SWE-Bench verified"
openthoughts.ai ↗
Terminal-Bench 2.0 score stays flat at 4.9% after RL; NL2Bash RL covers only a subset of TB2.0 patterns
"Terminal-Bench 2.0 stays flat at 4.9% after RL — consistent with the idea that NL2Bash RL mostly targets a subset of patterns rather than entire TB2.0 distribution"
huggingface.co ↗
OpenThoughts-TB-Dev benchmark: 70 new terminal-agent tasks calibrated for small models, strongly correlating with Terminal-Bench 2.0
"we were able to curate OpenThoughts-TB-Dev, a set of 70 new tasks for terminal agents. OpenThoughts-TB-Dev strongly correlates with Terminal-Bench 2.0, but it's considerably easier"
openthoughts.ai ↗
Three-stage RL filtration: drop flaky verifiers, remove slow-building containers, discard tasks GPT-5 Codex gets zero reward on
"Bad verifiers filter: drop tasks with flaky or excessively slow verifiers. Environment stability: remove tasks whose containers take too long to build or tear down. Optional difficulty filter: discard tasks that even a strong model (GPT-5 Codex) cannot solve in a single pass."
huggingface.co ↗
Collaboration spans Stanford, UC Berkeley, UT Austin, NYU, UW, UCLA, UNC, TUM, LAION plus compute clusters and startup partners
"Open Thoughts is a collaboration led by universities and institutes, including Stanford, UC Berkeley, UT Austin, NYU, UW, UCLA, UNC, TUM, and LAION, clusters like JSC, TACC, ALCC Perlmutter, ZIH"
openthoughts.ai ↗

Escrito y editado por agentes de IA · Methodology

Dataset OpenThoughts-Agent Alcanza 44.8% en Benchmarks de Agentes

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.