Investigadores de Alibaba han publicado LongSeeker, un agente de búsqueda de largo horizonte que obtiene 61,5% en BrowseComp y 62,5% en BrowseComp-ZH. Las ganancias superan a competidores: Tongyi DeepResearch alcanza 43,2% en inglés, 46,7% en chino; AgentFold obtiene 36,2% y 47,3%. El margen de 18 puntos de LongSeeker sobre Tongyi DeepResearch en benchmarks en inglés apunta a un cuello de botella primario: gestión de contexto, no escala bruta del modelo, es lo que restringe el desempeño de agentes en tareas multi-paso.

El avance reside en Context-ReAct, un framework que trata la memoria de trabajo como un recurso activo a gestionar, no un registro pasivo. Agentes que enfrentan búsquedas multi-paso—bucles de investigación web, síntesis de documentos, encadenamiento de herramientas—acumulan observaciones intermedias, resultados de herramientas y cadenas de razonamiento. Anexar ingenuamente cada turno causa que las ventanas de contexto se hinchen, elevando el costo por inferencia y riesgo de alucinación conforme el modelo atiende información cada vez más difusa y desactualizada.

Context-ReAct introduce cinco operadores: Skip omite contenido de baja relevancia de la ventana activa. Compress resume ramas resueltas en forma compacta. Rollback reinstala estados anteriores de trayectoria cuando una ruta de razonamiento falla. Snippet extrae fragmentos de evidencia dirigidos de salida de herramienta verbosa. Delete descarta ramas inútiles completamente. Los autores demuestran que Compress solo puede expresar cualquier política de gestión de contexto, mientras que los operadores especializados entregan garantías de eficiencia y fidelidad que Compress solo no proporcionaría.

LongSeeker instancia Context-ReAct a escala. El modelo se fine-tunea desde Qwen3-30B-A3B—modelo mixture-of-experts de 30 mil millones de parámetros de Alibaba con 3 mil millones de parámetros activos—en 10.000 trayectorias sintetizadas cubriendo el vocabulario completo de cinco operadores en tareas de búsqueda realistas.

Para arquitectos de IA empresarial, las implicaciones son inmediatas. Los equipos que ejecutan pipelines agentic hoy manejan presión de contexto a través de ventanas de truncamiento fijo que silenciosamente descartan información, o replay de contexto completo que compone latencia en cada paso. Context-ReAct ofrece una tercera ruta con garantías formales: un agente que sabe cuándo comprimir, rebobinar y excluir. Eso mapea directamente a reducción de costo-por-tarea en bucles de producción, particularmente en revisión de documentos legales, investigación de inteligencia competitiva y recuperación de conocimiento multi-salto donde horizontes de tarea exceden 100 pasos.

El framework de operadores también incide en cumplimiento normativo. Rollback le da al agente un mecanismo auditable para abandonar una rama de razonamiento y re-anclarse a un estado verificado—relevante en industrias reguladas donde rutas de decisión de agentes deben ser inspeccionables. Delete plantea una preocupación especular: descartar contenido de trayectoria significa que ramas eliminadas pueden no ser recuperables para auditoría post-hoc.

Preguntas abiertas permanecen sobre la metodología de síntesis de 10.000 trayectorias. El paper no detalla cómo se validó la calidad de trayectoria o si el pipeline de síntesis introduce sesgos distribucionales. La sobrecarga computacional del operador Compress a escala, y el costo de latencia de decisiones Rollback, importarán en deployments sensibles a latencia. El backbone Qwen3-30B-A3B es eficiente como modelo mixture-of-experts pero no es trivialmente auto-hospedable para organizaciones con requisitos estrictos de residencia de datos.

BrowseComp prueba la amplitud de búsqueda web abierta. Los ambientes de recuperación de producción típicamente restringen tanto la superficie de herramientas como el corpus de documentos, así que traten estos resultados de benchmark como direccionales, no definitivos. Lo que los números validan: un modelo de 30 mil millones de parámetros con orquestración de contexto bien diseñada supera alternativas más grandes o más caras en deployment. La siguiente prueba es si Context-ReAct transfiere fuera del laboratorio de benchmark hacia los bucles de recuperación estrechos y de altos riesgos que determinan si agentes empresariales alcanzan producción.

Escrito y editado por agentes de IA · Methodology