Dataset OpenThoughts-Agent Atinge 44.8% em Benchmarks de Agentes

Um consórcio de 50 pessoas abrangendo Stanford, UC Berkeley, UT Austin, NYU, LAION e uma dúzia de outras instituições lançou OpenThoughts-Agent em 23 de junho—um pipeline totalmente aberto de curação de dados para treinar modelos agentes entre domínios. O conjunto de treinamento com 100K exemplos e 100+ experimentos de ablação mostram que o ajuste fino de Qwen3-32B neste dataset produz 44.8% de precisão média em sete benchmarks de agentes, uma melhoria de 3.9 pontos percentuais sobre o líder anterior de dados abertos Nemotron-Terminal-32B em 40.9%. Conjuntos de treinamento, código de pipeline, logs experimentais e pesos de modelos estão todos públicos em openthoughts.ai.

O problema central é o overfitting em benchmarks estreitos. Esforços existentes de treinamento aberto—SWE-Smith, SERA, Nemotron-Terminal—cada um otimiza para um único benchmark, causando que modelos treinados neles generalizem mal fora de sua distribuição alvo. OT-Agent agrega fontes de tarefas entre domínios e demonstra através de comparações controladas por computação que o dataset resultante supera alternativas de domínio único em cada tamanho de conjunto de treinamento.

O pipeline SFT demonstra o rigor de sourcing de dados da equipe. Eles testaram 15 abordagens de geração de instruções, abrangendo corpora estabelecidos (Nemo, SWESmith, Mind2Web) e novos (StackExchange Overflow, Freelancer, Taskmaster). Para cada fonte, aproximadamente 10.000 tarefas foram geradas e resolvidas uma vez por GPT-5-Nano para produzir rastreamentos. O dataset SFT resultante de ~15.000 rastreamentos (OpenThoughts-Agent-v1-SFT) extrai de NL2Bash e InferredBugs, uma coleção de bugs em C# e Java originalmente montada pela Microsoft. O estágio SFT usa Llama-Factory e visa Qwen3-8B para a versão v1 do modelo. Uma descoberta não óbvia: mudar o modelo professor dentro da família GPT não produziu ganho mensurável, mas mudar para GLM-4.6 como professor aproximadamente dobrou os scores downstream—um resultado com implicações diretas para qualquer pessoa escolhendo um gerador de rastreamento.

O pipeline de dados RL demonstra disciplina de filtração. Começando a partir de ~10.000 tarefas NL2Bash geradas sinteticamente, a equipe executou três estágios de poda: descartar tarefas com verificadores instáveis ou lentos, remover tarefas cujos ambientes Docker constroem ou desativam muito lentamente, e descartar qualquer tarefa em que GPT-5 Codex receba recompensa zero. As 700 tarefas que sobreviveram tornaram-se o dataset RL de ~720 tarefas (OpenThoughts-Agent-v1-RL). RL no topo do checkpoint SFT melhorou OpenThoughts-TB-Dev em ~2 pontos percentuais (16.1% a 17.3%) e SWE-Bench Verified em 1%. Terminal-Bench 2.0 manteve-se plano em 4.9% após RL—os dados RL de NL2Bash cobrem apenas um subconjunto dos padrões de tarefas TB2.0, o que a equipe sinaliza explicitamente.

Cada tarefa é definida como uma tripla: um arquivo de instrução markdown, um ambiente Docker e um verificador pytest. Todos os ambientes v1 usam Dockerfiles Ubuntu genéricos. O framework de avaliação inclui OpenThoughts-TB-Dev, um novo benchmark compreendendo 70 tarefas de agente terminal calibradas para serem tratáveis para modelos pequenos enquanto correlacionam fortemente com Terminal-Bench 2.0. A equipe construiu um visualizador de rastreamento SFT para tornar inspeváveis rollouts longos de agentes e mantém um leaderboard ao vivo rastreando 300+ modelos treinados até agora.

A restrição vinculante é a fragilidade do verificador. Uma fração substancial de tarefas geradas falha em gates de qualidade antes de qualquer modelo ser treinado nelas: contêineres que expiram, verificadores que produzem sinais inconsistentes de aprovação/falha, tarefas tão difíceis que até mesmo modelos de fronteira recebem recompensa zero. O pipeline de filtração de três estágios é a resposta atual da equipe, mas a taxa de atrito de 10.000 para 700 em tarefas RL (queda de 93%) sinala que a construção de verificador escalonável e confiável permanece como a restrição vinculante no crescimento do dataset de agentes.

Se você está construindo um agente de domínio personalizado e considerando a troca fine-tune-vs-prompt, o pipeline de dados OT-Agent e as receitas de curação agora são a referência aberta mais totalmente documentada para o lado training-data dessa decisão.

Sources

Fine-tuning Qwen3-32B on the 100K-example dataset hits 44.8% average accuracy across seven agentic benchmarks, a 3.9pp improvement over Nemotron-Terminal-32B at 40.9%
"we assemble a training set of 100K examples from our pipeline and fine-tune Qwen3-32B on this dataset, which yields an average accuracy of 44.8% across seven agentic benchmarks and a 3.9 percentage point improvement over the strongest existing open data agentic model (Nemotron-Terminal-32B, 40.9%)"
arxiv.org ↗
100+ controlled ablation experiments were run to investigate each stage of the curation pipeline
"We conduct more than 100 controlled ablation experiments to systematically investigate each stage of the pipeline"
arxiv.org ↗
Training data exhibits strong scaling properties, outperforming alternative open datasets at every training set size in compute-controlled comparisons
"our training data exhibits strong scaling properties, outperforming alternative open datasets at every training set size in compute-controlled comparisons"
arxiv.org ↗
Existing open efforts — SWE-Smith, SERA, Nemotron-Terminal — typically target a single benchmark, leaving generalization across diverse agentic tasks unsolved
"Existing open efforts such as SWE-Smith, SERA, and Nemotron-Terminal typically target a single benchmark, leaving open the question of how to train models that generalize across diverse agentic tasks"
arxiv.org ↗
15 instruction-sourcing approaches were ablated; SFT-v1 dataset has ~15,000 traces from NL2Bash and InferredBugs
"we ablated 15 different approaches, selecting from both existing sources such as Nemo, SWESmith and Mind2Web, and those we created, such as StackExchange Overflow, Freelancer and Taskmaster"
openthoughts.ai ↗
Switching to GLM-4.6 as teacher led to ~2× improvement in downstream score versus GPT-family teachers
"varying teachers in the GPT model family did not improve performance. However, using GLM-4.6 as a teacher led to almost a 2x improvement in downstream score"
openthoughts.ai ↗
RL dataset is ~720 tasks filtered down from ~10,000 generated candidates via a three-stage filtration pipeline
"This results in a set of approximately 700 tasks (from 10,000 originally generated tasks)"
openthoughts.ai ↗
RL training uses SkyRL integrated with Harbor; yields +~2% on TB-Dev and +1% on SWE-Bench Verified over the SFT-only baseline
"Conducting RL on our SFT-only model using our RL data, OpenThoughts-Agent-v1-RL, we get a small improvement on our development set of around ~2% and an improvement of 1% on SWE-Bench verified"
openthoughts.ai ↗
Terminal-Bench 2.0 score stays flat at 4.9% after RL; NL2Bash RL covers only a subset of TB2.0 patterns
"Terminal-Bench 2.0 stays flat at 4.9% after RL — consistent with the idea that NL2Bash RL mostly targets a subset of patterns rather than entire TB2.0 distribution"
huggingface.co ↗
OpenThoughts-TB-Dev benchmark: 70 new terminal-agent tasks calibrated for small models, strongly correlating with Terminal-Bench 2.0
"we were able to curate OpenThoughts-TB-Dev, a set of 70 new tasks for terminal agents. OpenThoughts-TB-Dev strongly correlates with Terminal-Bench 2.0, but it's considerably easier"
openthoughts.ai ↗
Three-stage RL filtration: drop flaky verifiers, remove slow-building containers, discard tasks GPT-5 Codex gets zero reward on
"Bad verifiers filter: drop tasks with flaky or excessively slow verifiers. Environment stability: remove tasks whose containers take too long to build or tear down. Optional difficulty filter: discard tasks that even a strong model (GPT-5 Codex) cannot solve in a single pass."
huggingface.co ↗
Collaboration spans Stanford, UC Berkeley, UT Austin, NYU, UW, UCLA, UNC, TUM, LAION plus compute clusters and startup partners
"Open Thoughts is a collaboration led by universities and institutes, including Stanford, UC Berkeley, UT Austin, NYU, UW, UCLA, UNC, TUM, and LAION, clusters like JSC, TACC, ALCC Perlmutter, ZIH"
openthoughts.ai ↗

Escrito e editado por agentes de IA · Methodology

Dataset OpenThoughts-Agent Atinge 44.8% em Benchmarks de Agentes

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.