LongSeeker Supera Competidores em Tarefas de Longo Horizonte

Pesquisadores propõem Context-ReAct, um sistema adaptativo de gerenciamento de contexto para agentes que precisam raciocinar por centenas ou milhares de passos sem sobrecarregar orçamentos de memória e latência. Ao manter fragmentos de trajetória em níveis variáveis de detalhe, LongSeeker reduz custo e erro em loops de agentes multi-turno—um avanço prático para sistemas agentic em produção.

Pesquisadores da Alibaba publicaram LongSeeker, um agente de busca de longo horizonte que marca 61,5% no BrowseComp e 62,5% no BrowseComp-ZH. Os ganhos excedem competidores: Tongyi DeepResearch atinge 43,2% em inglês, 46,7% em chinês; AgentFold marca 36,2% e 47,3%. A margem de 18 pontos do LongSeeker sobre Tongyi DeepResearch em benchmarks em inglês aponta para um gargalo primário: gerenciamento de contexto, não escala bruta de modelo, restringe o desempenho de agentes em tarefas multi-passos.

O avanço reside em Context-ReAct, um framework que trata a memória de trabalho como um recurso ativo a ser gerenciado, não um log passivo. Agentes que enfrentam buscas multi-passos—loops de pesquisa web, síntese de documentos, encadeamento de ferramentas—acumulam observações intermediárias, saídas de ferramentas e cadeias de raciocínio. Anexar ingenuamente cada turno causa inchamento de janelas de contexto, elevando custo por inferência e risco de alucinação conforme o modelo atende a informações cada vez mais difusas e obsoletas.

Context-ReAct introduz cinco operadores: Skip omite conteúdo de baixa relevância da janela ativa. Compress resume ramos resolvidos em forma compacta. Rollback reinstala estados anteriores de trajetória quando um caminho de raciocínio falha. Snippet extrai fragmentos de evidência direcionados de saída de ferramenta verbosa. Delete descarta ramos inúteis inteiramente. Os autores provam que Compress sozinho pode expressar qualquer política de gerenciamento de contexto, enquanto os operadores especializados entregam garantias de eficiência e fidelidade que Compress sozinho não teria.

LongSeeker instancia Context-ReAct em escala. O modelo é fine-tuned a partir de Qwen3-30B-A3B—modelo mixture-of-experts de 30 bilhões de parâmetros da Alibaba com 3 bilhões de parâmetros ativos—em 10.000 trajetórias sintetizadas cobrindo o vocabulário completo de cinco operadores em tarefas de busca realistas.

Para arquitetos de IA empresarial, as implicações são imediatas. Equipes executando pipelines agentic hoje lidam com pressão de contexto através de janelas de truncagem fixa que silenciosamente descartam informação, ou replay de contexto completo que compõe latência a cada passo. Context-ReAct oferece um terceiro caminho com garantias formais: um agente que sabe quando comprimir, retroceder e excluir. Isso mapeia diretamente para redução de custo-por-tarefa em loops de produção, particularmente em revisão de documentos jurídicos, pesquisa de inteligência competitiva e recuperação de conhecimento multi-salto onde horizontes de tarefa excedem 100 passos.

O framework de operadores também incide sobre compliance. Rollback dá ao agente um mecanismo auditável para abandonar um ramo de raciocínio e re-ancorar a um estado verificado—relevante em indústrias reguladas onde caminhos de decisão de agentes devem ser inspecionáveis. Delete levanta uma preocupação espelhada: descartar conteúdo de trajetória significa ramos deletados podem não ser recuperáveis para auditoria post-hoc.

Questões abertas permanecem sobre a metodologia de síntese de 10.000 trajetórias. O paper não detalha como qualidade de trajetória foi validada ou se o pipeline de síntese introduz vieses distribucionais. A sobrecarga computacional do operador Compress em escala, e o custo de latência de decisões Rollback, importarão em deployments sensíveis a latência. O backbone Qwen3-30B-A3B é eficiente como modelo mixture-of-experts mas não é trivialmente self-hospedável para organizações com requisitos rigorosos de residência de dados.

BrowseComp testa abrangência de busca web aberta. Ambientes de recuperação de produção tipicamente restringem tanto a superfície de ferramenta quanto o corpus de documentos, assim tratam esses resultados de benchmark como direcionais, não definitivos. O que os números validam: um modelo de 30 bilhões de parâmetros com orquestração de contexto bem-projetada supera alternativas maiores ou mais caras em deploy. O próximo teste é se Context-ReAct transfere fora do laboratório de benchmark para os loops de recuperação estreitos e altos stakes que determinam se agentes empresariais atingem produção.

Sources

LongSeeker scores 61.5% on BrowseComp and 62.5% on BrowseComp-ZH
"LongSeeker achieves 61.5% on BrowseComp and 62.5% on BrowseComp-ZH"
arxiv.org ↗
Tongyi DeepResearch scores 43.2% on BrowseComp and 46.7% on BrowseComp-ZH
"substantially outperforming Tongyi DeepResearch (43.2% and 46.7%)"
arxiv.org ↗
AgentFold scores 36.2% on BrowseComp and 47.3% on BrowseComp-ZH
"AgentFold (36.2% and 47.3%)"
arxiv.org ↗
LongSeeker is fine-tuned from Qwen3-30B-A3B on 10,000 synthesized trajectories
"LongSeeker, a long-horizon search agent fine-tuned from Qwen3-30B-A3B on 10k synthesized trajectories"
arxiv.org ↗
Context-ReAct provides five atomic operations: Skip, Compress, Rollback, Snippet, and Delete
"Context-ReAct provides five atomic operations: Skip, Compress, Rollback, Snippet and Delete, which allow the agent to dynamically reshape its working context"
arxiv.org ↗
The Compress operator is proven to be expressively complete
"We prove that the Compress operator is expressively complete, while the other specialized operators provide efficiency and fidelity guarantees"
arxiv.org ↗
Context-ReAct integrates reasoning, context management, and tool use in a unified loop
"a general agentic paradigm for elastic context orchestration that integrates reasoning, context management, and tool use in a unified loop"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

LongSeeker Supera Competidores em Tarefas de Longo Horizonte

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.