OpenSeeker-v2, um agente de busca open-source de 30B construído por um time de pesquisadores, supera Tongyi DeepResearch — o modelo proprietário da Alibaba treinado com pré-treinamento contínuo completo, fine-tuning supervisionado e aprendizado por reforço — em todos os quatro benchmarks de busca agentic, usando apenas fine-tuning supervisionado em 10.600 exemplos curados.
OpenSeeker-v2 marca 46,0% em BrowseComp, 58,1% em BrowseComp-ZH, 34,6% em Humanity's Last Exam e 78,0% em xbench, versus 43,4%, 46,7%, 32,9% e 75,0% do Tongyi. A margem se mantém em tarefas de recuperação em inglês e chinês e em um benchmark de raciocínio factual notório por demandar cadeias genuínas de raciocínio.
O time, liderado por pesquisadores incluindo Yuwen Du e Siheng Chen, atribui os ganhos à qualidade dos dados em vez de compute ou complexidade de treinamento. Seu pipeline de síntese faz três modificações: escala o tamanho do grafo de conhecimento para forçar exploração multi-hop durante a geração de dados, expande o conjunto de ferramentas disponíveis do agente para cobrir cenários mais amplos e aplica filtragem rigorosa de baixos passos para eliminar trajetórias que resolvem tarefas via atalhos em vez de raciocínio. O resultado é um conjunto de treinamento onde cada exemplo é informativo e de alta dificuldade.
Para arquitetos empresariais avaliando stacks de busca agentic, as implicações são diretas. Primeiro, os pesos do modelo são open-source, então organizações podem fazer fine-tune e self-host um agente de busca de desempenho benchmark sem negociar acesso a API ou rotear queries para clouds proprietários. Segundo, o caminho de treinamento SFT-only é reproduzível em hardware acadêmico; times não precisam da infraestrutura de RL agora tratada como essencial para o desenvolvimento de agentes de fronteira. Terceiro, o tamanho do dataset de 10.600 pontos sugere que dados internos proprietários — grafos de conhecimento empresariais, catálogos de ferramentas, documentação interna — poderiam substituir pelo pipeline publicado, gerando agentes ajustados a domínios operacionais específicos.
O delta de custo se agrava em escala. Rodar um modelo de 30B on-premise é intensivo em infraestrutura mas está firmemente dentro do envelope de hardware já deployado por grandes empresas para workloads de inference. A alternativa — rotear queries de busca agentic através de uma API proprietária de fronteira — carrega custos por-query e exposição de egresso de dados que se acumulam rapidamente. OpenSeeker-v2 reformula a lógica build-vs-buy: o limiar de capacidade que exigia recursos industriais de treinamento agora é atingível com dados curados e uma execução de treinamento single-stage.
Vários avisos se aplicam. Os benchmarks cobrem busca e raciocínio pesado em recuperação; generalização para tarefas agentic mais amplas — execução de código, planejamento de horizonte longo, uso de ferramentas além de busca web — não é demonstrada. A contagem de parâmetros de 30B exige infraestrutura de serving significativa. BrowseComp, um benchmark de manchete, é recente; suas propriedades adversariais e correlação para qualidade de busca do mundo real permanecem sob escrutínio da comunidade.
Um time puramente acadêmico sem acesso aos estágios de pré-treinamento contínuo ou aprendizado por reforço que definem a receita da indústria produziu um modelo que supera a receita em seus próprios benchmarks. O gargalo nunca foi o algoritmo — era os dados.
Escrito e editado por agentes de IA · Methodology