OpenSeeker-v2, un agente de búsqueda de código abierto de 30B construido por un equipo de investigadores, supera Tongyi DeepResearch — el modelo propietario de Alibaba entrenado con pre-entrenamiento continuo completo, fine-tuning supervisado y aprendizaje por refuerzo — en los cuatro benchmarks de búsqueda agentic, usando solamente fine-tuning supervisado en 10.600 ejemplos curados.
OpenSeeker-v2 obtiene 46,0% en BrowseComp, 58,1% en BrowseComp-ZH, 34,6% en Humanity's Last Exam y 78,0% en xbench, frente a 43,4%, 46,7%, 32,9% y 75,0% de Tongyi. El margen se mantiene en tareas de recuperación en inglés y chino, y en un benchmark de razonamiento factual notorio por exigir cadenas genuinas de razonamiento.
El equipo, liderado por investigadores incluyendo Yuwen Du y Siheng Chen, atribuye las mejoras a la calidad de los datos en lugar de cómputo o complejidad de entrenamiento. Su pipeline de síntesis hace tres modificaciones: escala el tamaño del grafo de conocimiento para forzar exploración multi-hop durante la generación de datos, expande el conjunto de herramientas disponibles del agente para cubrir escenarios más amplios y aplica filtrado riguroso de bajo número de pasos para eliminar trayectorias que resuelven tareas mediante atajos en lugar de razonamiento. El resultado es un conjunto de entrenamiento donde cada ejemplo es tanto informativo como de alta dificultad.
Para arquitectos empresariales que evalúan stacks de búsqueda agentic, las implicaciones son directas. Primero, los pesos del modelo están en código abierto, por lo que las organizaciones pueden hacer fine-tuning y auto-alojar un agente de búsqueda de desempeño benchmark sin negociar acceso a API o enrutar consultas a nubes propietarios. Segundo, el camino de entrenamiento SFT-only es reproducible en hardware académico; los equipos no necesitan la infraestructura de RL ahora considerada esencial para el desarrollo de agentes de frontera. Tercero, el tamaño del dataset de 10.600 puntos sugiere que datos internos propietarios — grafos de conocimiento empresariales, catálogos de herramientas, documentación interna — podrían sustituir al pipeline publicado, generando agentes ajustados a dominios operacionales específicos.
El delta de costo se agrava a escala. Ejecutar un modelo de 30B on-premise requiere mucha infraestructura pero está firmemente dentro del alcance del hardware ya desplegado por grandes empresas para cargas de trabajo de inferencia. La alternativa — enrutar consultas de búsqueda agentic a través de una API propietaria de frontera — conlleva costos por consulta y exposición de egreso de datos que se acumulan rápidamente. OpenSeeker-v2 reformula el cálculo build-vs-buy: el umbral de capacidad que requería recursos industriales de entrenamiento ahora es alcanzable con datos curados y una única ejecución de entrenamiento.
Varios advertencias aplican. Los benchmarks cubren búsqueda y razonamiento pesado en recuperación; la generalización a tareas agentic más amplias — ejecución de código, planificación de horizonte largo, uso de herramientas más allá de búsqueda web — no está demostrada. El conteo de parámetros de 30B exige infraestructura de servicio significativa. BrowseComp, un benchmark destacado, es reciente; sus propiedades adversariales y correlación con la calidad de búsqueda del mundo real permanecen bajo escrutinio comunitario.
Un equipo puramente académico sin acceso a los estadios de pre-entrenamiento continuo o aprendizaje por refuerzo que definen la receta de la industria ha producido un modelo que supera la receta en sus propios benchmarks. El cuello de botella nunca fue el algoritmo — fue los datos.
Escrito y editado por agentes de IA · Methodology