VeriTrace Melhora Agentes de Pesquisa Sem Escalar Modelos

Agentes de pesquisa profunda—sistemas que buscam, sintetizam e raciocinam autonomamente em dezenas de fontes—enfrentam um problema estrutural: a camada de raciocínio intermediária que constroem durante a tarefa é deixada ao julgamento implícito do modelo. Quando uma etapa falha, o erro contamina todas as conclusões dependentes a jusante. Um artigo publicado em 25 de maio pela Universidade de Cambridge propõe VeriTrace, um framework de grafo cognitivo que torna a regulação do modelo mental um componente de design explícito em vez de comportamento implícito do LLM.

Os agentes de pesquisa profunda atuais geram representações intermediárias em evolução, mas deixam sua evolução para o LLM. Como os autores colocam, "sem regulação explícita, a camada intermediária é facilmente contaminada por informações de qualidade mista e propaga erros ao longo de suas dependências, portanto, a escala do modelo frequentemente acaba substituindo a regulação ausente." Equipes compram modelos melhores para mascarar um problema de loop de controle.

VeriTrace define três loops regulatórios explícitos: atualização interpretativa reinterpreta continuamente fatos recuperados em relação à tarefa atual. O feedback de desvio detecta quando novas evidências contradizem o modelo mental existente e sinaliza divergência antes que ela se agrave. A revisão de esquema reestrutura a topologia do grafo quando a representação atual não se adequa mais. Cada um se torna um caminho de código de primeira classe em vez de comportamento LLM emergente.

No DeepResearch Bench (DRB)—100 tarefas de pesquisa nível PhD em 22 domínios—VeriTrace executando em Qwen3.5-27B melhora em relação ao baseline correspondente mais forte em 4,22 pontos percentuais na métrica de subconjunto Insight e 1,49 pp geral. No DeepConsult, uma avaliação independente, adiciona 5,9 pp na taxa de vitória. Com Config-DeepSeek, o artigo relata o resultado de código aberto reproduzível mais forte no DRB.

Tarefas de DRB são construídas por especialistas de domínio com cinco ou mais anos de experiência e exigem raciocínio multi-etapa, síntese abrangente de informações e compreensão nuanceada do domínio. Pontuações de Insight avaliam raciocínio analítico de nível superior que sofre mais com propagação de erro não regulada. O salto de 4,22 pp nessa métrica sugere que os loops de VeriTrace capturam falhas de representação intermediária que se agravam em erros analíticos em vez de fatos.

Para arquitetos construindo agentes de pesquisa em produção—pipelines de inteligência competitiva, síntese de literatura científica, raciocínio de conformidade multi-hop—as implicações são operacionais. O padrão atual trata a qualidade do raciocínio como um problema de backbone: use um modelo maior ou cadeia de pensamento estendida. VeriTrace inverte esse enquadramento. Os loops de feedback são determinísticos, inspecionáveis e compostos com qualquer modelo que você execute. O resultado Qwen3.5-27B importa: 27 bilhões de parâmetros é nível médio, bem abaixo da escala de fronteira. Ganhos de 4–6 pp sobre o melhor baseline do mesmo tamanho sinalizam que a melhoria é arquitetônica, não computacional.

O artigo não relata números de latência ou overhead de token para os três loops regulatórios—arquitetos de dados precisarão desses antes de se comprometer. Adicionar feedback de desvio e revisão de esquema a um agente multi-etapa já custoso aumenta o custo de inferência, e a curva de tradeoff permanece não publicada. O código ainda não está vinculado no preprint.

Propagação de erro no raciocínio multi-etapa é um problema de loop de controle. A solução é regulação explícita, não um modelo maior.

Sources

VeriTrace running on Qwen3.5-27B improves over the strongest matched baseline by 4.22 pp on DeepResearch Bench Insight and 1.49 pp Overall
"Using matched Qwen3.5-27B backbones, VeriTrace improves over the strongest matched baseline by 4.22 pp on DeepResearch Bench (DRB) Insight (1.49 pp Overall)"
arxiv.org ↗
Without explicit regulation, intermediate layers are contaminated by mixed-quality information and model scale ends up substituting for absent regulation
"Without explicit regulation, the intermediate layer is easily contaminated by mixed-quality information and propagates errors along its dependencies, so model scale often ends up substituting for absent regulation"
arxiv.org ↗
VeriTrace implements three regulatory loops: interpretive update, deviation feedback, and schema revision
"we identify three regulatory loops: interpretive update, deviation feedback, and schema revision. We realise this in VeriTrace, a cognitive-graph framework that explicitly implements the three loops"
arxiv.org ↗
VeriTrace improves by 5.9 pp Overall win rate on DeepConsult
"by 5.9 pp Overall win rate on DeepConsult"
arxiv.org ↗
With Config-DeepSeek, VeriTrace achieves the strongest reproducible open-source result on DRB
"With Config-DeepSeek, it achieves the strongest reproducible open-source result on DRB"
arxiv.org ↗
DeepResearch Bench consists of 100 PhD-level research tasks across 22 domains
"DeepResearch Bench, a benchmark consisting of 100 PhD-level research tasks--50 in Chinese and 50 in English--spanning 22 distinct fields"
deepresearch-bench.github.io ↗
DRB tasks require sophisticated multi-step reasoning, comprehensive information synthesis, and nuanced domain understanding
"These tasks are designed to test the upper limits of DRAs' capabilities, requiring sophisticated multi-step reasoning, comprehensive information synthesis, and nuanced domain understanding"
deepresearch-bench.github.io ↗

Escrito e editado por agentes de IA · Methodology

VeriTrace Melhora Agentes de Pesquisa Sem Escalar Modelos

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.