OpenSeeker-v2 supera Tongyi de Alibaba en benchmarks de búsqueda agentic

Investigadores muestran que un agente de código abierto, entrenado con trayectorias de alta calidad mediante fine-tuning supervisado, logra un desempeño de búsqueda comparable a modelos propietarios de frontera sin escala masiva. Esto desafía la narrativa del "mayor es mejor" y abre la puerta a despliegues agentic más económicos y on-premise.

OpenSeeker-v2, un agente de búsqueda de código abierto de 30B construido por un equipo de investigadores, supera Tongyi DeepResearch — el modelo propietario de Alibaba entrenado con pre-entrenamiento continuo completo, fine-tuning supervisado y aprendizaje por refuerzo — en los cuatro benchmarks de búsqueda agentic, usando solamente fine-tuning supervisado en 10.600 ejemplos curados.

OpenSeeker-v2 obtiene 46,0% en BrowseComp, 58,1% en BrowseComp-ZH, 34,6% en Humanity's Last Exam y 78,0% en xbench, frente a 43,4%, 46,7%, 32,9% y 75,0% de Tongyi. El margen se mantiene en tareas de recuperación en inglés y chino, y en un benchmark de razonamiento factual notorio por exigir cadenas genuinas de razonamiento.

El equipo, liderado por investigadores incluyendo Yuwen Du y Siheng Chen, atribuye las mejoras a la calidad de los datos en lugar de cómputo o complejidad de entrenamiento. Su pipeline de síntesis hace tres modificaciones: escala el tamaño del grafo de conocimiento para forzar exploración multi-hop durante la generación de datos, expande el conjunto de herramientas disponibles del agente para cubrir escenarios más amplios y aplica filtrado riguroso de bajo número de pasos para eliminar trayectorias que resuelven tareas mediante atajos en lugar de razonamiento. El resultado es un conjunto de entrenamiento donde cada ejemplo es tanto informativo como de alta dificultad.

Para arquitectos empresariales que evalúan stacks de búsqueda agentic, las implicaciones son directas. Primero, los pesos del modelo están en código abierto, por lo que las organizaciones pueden hacer fine-tuning y auto-alojar un agente de búsqueda de desempeño benchmark sin negociar acceso a API o enrutar consultas a nubes propietarios. Segundo, el camino de entrenamiento SFT-only es reproducible en hardware académico; los equipos no necesitan la infraestructura de RL ahora considerada esencial para el desarrollo de agentes de frontera. Tercero, el tamaño del dataset de 10.600 puntos sugiere que datos internos propietarios — grafos de conocimiento empresariales, catálogos de herramientas, documentación interna — podrían sustituir al pipeline publicado, generando agentes ajustados a dominios operacionales específicos.

El delta de costo se agrava a escala. Ejecutar un modelo de 30B on-premise requiere mucha infraestructura pero está firmemente dentro del alcance del hardware ya desplegado por grandes empresas para cargas de trabajo de inferencia. La alternativa — enrutar consultas de búsqueda agentic a través de una API propietaria de frontera — conlleva costos por consulta y exposición de egreso de datos que se acumulan rápidamente. OpenSeeker-v2 reformula el cálculo build-vs-buy: el umbral de capacidad que requería recursos industriales de entrenamiento ahora es alcanzable con datos curados y una única ejecución de entrenamiento.

Varios advertencias aplican. Los benchmarks cubren búsqueda y razonamiento pesado en recuperación; la generalización a tareas agentic más amplias — ejecución de código, planificación de horizonte largo, uso de herramientas más allá de búsqueda web — no está demostrada. El conteo de parámetros de 30B exige infraestructura de servicio significativa. BrowseComp, un benchmark destacado, es reciente; sus propiedades adversariales y correlación con la calidad de búsqueda del mundo real permanecen bajo escrutinio comunitario.

Un equipo puramente académico sin acceso a los estadios de pre-entrenamiento continuo o aprendizaje por refuerzo que definen la receta de la industria ha producido un modelo que supera la receta en sus propios benchmarks. El cuello de botella nunca fue el algoritmo — fue los datos.

Sources

OpenSeeker-v2 scores 46.0% on BrowseComp, surpassing Tongyi DeepResearch's 43.4%
"46.0% on BrowseComp, 58.1% on BrowseComp-ZH, 34.6% on Humanity's Last Exam, and 78.0% on xbench, surpassing even Tongyi DeepResearch trained with heavy CPT+SFT+RL pipeline, which achieves 43.4%, 46.7%, 32.9%, and 75.0%, respectively"
arxiv.org ↗
OpenSeeker-v2 trained on 10,600 data points using SFT only
"Trained on merely 10.6k data points, our OpenSeeker-v2 achieves state-of-the-art performance across 4 benchmarks"
arxiv.org ↗
Three data synthesis modifications: scaling knowledge graph size, expanding tool set, strict low-step filtering
"By introducing three simple data synthesis modifications: scaling knowledge graph size for richer exploration, expanding the tool set size for broader functionality, and strict low-step filtering"
arxiv.org ↗
First SOTA search agent at 30B scale developed by a purely academic team using only SFT
"OpenSeeker-v2 represents the first state-of-the-art search agent within its model scale and paradigm to be developed by a purely academic team using only SFT"
arxiv.org ↗
Tongyi DeepResearch uses a CPT+SFT+RL training pipeline
"The typical industry recipe involves a highly resource-intensive pipeline spanning pre-training, continual pre-training (CPT), supervised fine-tuning (SFT), and reinforcement learning (RL)"
arxiv.org ↗
Model weights are being open-sourced by the team
"We are excited to open-source the OpenSeeker-v2 model weights and share our simple yet effective findings to make frontier search agent research more accessible to the community"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

OpenSeeker-v2 supera Tongyi de Alibaba en benchmarks de búsqueda agentic

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.