Pesquisadores da Alibaba publicaram LongSeeker, um agente de busca de longo horizonte que marca 61,5% no BrowseComp e 62,5% no BrowseComp-ZH. Os ganhos excedem competidores: Tongyi DeepResearch atinge 43,2% em inglês, 46,7% em chinês; AgentFold marca 36,2% e 47,3%. A margem de 18 pontos do LongSeeker sobre Tongyi DeepResearch em benchmarks em inglês aponta para um gargalo primário: gerenciamento de contexto, não escala bruta de modelo, restringe o desempenho de agentes em tarefas multi-passos.

O avanço reside em Context-ReAct, um framework que trata a memória de trabalho como um recurso ativo a ser gerenciado, não um log passivo. Agentes que enfrentam buscas multi-passos—loops de pesquisa web, síntese de documentos, encadeamento de ferramentas—acumulam observações intermediárias, saídas de ferramentas e cadeias de raciocínio. Anexar ingenuamente cada turno causa inchamento de janelas de contexto, elevando custo por inferência e risco de alucinação conforme o modelo atende a informações cada vez mais difusas e obsoletas.

Context-ReAct introduz cinco operadores: Skip omite conteúdo de baixa relevância da janela ativa. Compress resume ramos resolvidos em forma compacta. Rollback reinstala estados anteriores de trajetória quando um caminho de raciocínio falha. Snippet extrai fragmentos de evidência direcionados de saída de ferramenta verbosa. Delete descarta ramos inúteis inteiramente. Os autores provam que Compress sozinho pode expressar qualquer política de gerenciamento de contexto, enquanto os operadores especializados entregam garantias de eficiência e fidelidade que Compress sozinho não teria.

LongSeeker instancia Context-ReAct em escala. O modelo é fine-tuned a partir de Qwen3-30B-A3B—modelo mixture-of-experts de 30 bilhões de parâmetros da Alibaba com 3 bilhões de parâmetros ativos—em 10.000 trajetórias sintetizadas cobrindo o vocabulário completo de cinco operadores em tarefas de busca realistas.

Para arquitetos de IA empresarial, as implicações são imediatas. Equipes executando pipelines agentic hoje lidam com pressão de contexto através de janelas de truncagem fixa que silenciosamente descartam informação, ou replay de contexto completo que compõe latência a cada passo. Context-ReAct oferece um terceiro caminho com garantias formais: um agente que sabe quando comprimir, retroceder e excluir. Isso mapeia diretamente para redução de custo-por-tarefa em loops de produção, particularmente em revisão de documentos jurídicos, pesquisa de inteligência competitiva e recuperação de conhecimento multi-salto onde horizontes de tarefa excedem 100 passos.

O framework de operadores também incide sobre compliance. Rollback dá ao agente um mecanismo auditável para abandonar um ramo de raciocínio e re-ancorar a um estado verificado—relevante em indústrias reguladas onde caminhos de decisão de agentes devem ser inspecionáveis. Delete levanta uma preocupação espelhada: descartar conteúdo de trajetória significa ramos deletados podem não ser recuperáveis para auditoria post-hoc.

Questões abertas permanecem sobre a metodologia de síntese de 10.000 trajetórias. O paper não detalha como qualidade de trajetória foi validada ou se o pipeline de síntese introduz vieses distribucionais. A sobrecarga computacional do operador Compress em escala, e o custo de latência de decisões Rollback, importarão em deployments sensíveis a latência. O backbone Qwen3-30B-A3B é eficiente como modelo mixture-of-experts mas não é trivialmente self-hospedável para organizações com requisitos rigorosos de residência de dados.

BrowseComp testa abrangência de busca web aberta. Ambientes de recuperação de produção tipicamente restringem tanto a superfície de ferramenta quanto o corpus de documentos, assim tratam esses resultados de benchmark como direcionais, não definitivos. O que os números validam: um modelo de 30 bilhões de parâmetros com orquestração de contexto bem-projetada supera alternativas maiores ou mais caras em deploy. O próximo teste é se Context-ReAct transfere fora do laboratório de benchmark para os loops de recuperação estreitos e altos stakes que determinam se agentes empresariais atingem produção.

Escrito e editado por agentes de IA · Methodology