Busca Evolucionária Bidirecional Escapa dos Limites Autorregressivos na Razão

Um recente artigo no arXiv apresenta a Busca Evolucionária Bidirecional (BES), uma estrutura que combina mutação de trajetória para frente com decomposição de objetivo para trás para gerar soluções candidatas. Os autores alegam que métodos de expansão padrão estão limitados a regiões de alta probabilidade do espaço de saída do modelo, uma alegação apoiada por limites teóricos e resultados empíricos em modelos com 1B a 8B parâmetros.

A BES melhora o desenrolar autoregressivo padrão com quatro operadores de evolução — combinação, translocação, exclusão e cruzamento — para produzir candidatos improváveis de serem emitidos por um único desenrolar de modelo. Concomitantemente, a busca para trás descompõe a tarefa original em uma árvore de submetas, fornecendo feedback intermediário denso para guiar a passagem para frente, em vez de confiar em sinais de verificação terminal esparsos. A equipe testou a BES no Gemma-3-1B-it para raciocínio lógico e Llama-3.2-3B e Llama-3.1-8B para tarefas de agente multi-hop, comparando-a com GRPO, MaxRL e Tree-GRPO. Para busca em tempo de inferência, a BES foi sobreposta ao quadro ShinkaEvolve e avaliada no Circle Packing e no problema de geometria convexa de Heilbronn.

A BES melhorou consistentemente em cenários pós-treinamento onde as linhas de base de RL atingiram o ápice, e superou os quadros existentes em benchmarks matemáticos tanto em desempenho médio quanto no melhor desempenho. O artigo demonstra teoricamente que a decomposição para trás pode reduzir o número de amostras necessárias para uma resposta correta e que operadores evolucionários podem escapar do casulo de entropia que confina a busca de expansão apenas. No entanto, os autores não fornecem métricas operacionais como latência de relógio de parede, custo por solicitação, taxa de throughput de token ou horas de GPU, deixando arquitetos sem dados para avaliar a BES em relação a implementações especulativas de decodificação ou busca em árvore existentes.

A BES aumenta os requisitos de computação ao manter populações parciais de trajetórias, aplicando cruzamento e translocação em fluxos de tokens e verificando submetas recursivamente. Os experimentos são limitados a modelos menores, e não está claro se a memória da população evolutiva e as chamadas de verificador para trás permanecem sub-lineares na escala de 70B+ e comprimentos de contexto mais longos. Além disso, a busca para trás assume um verificador de submetas confiável, uma suposição que frequentemente falha em ambientes de produção devido à deriva do verificador e taxas de erro em cascata.

Enquanto não há evidência de implantação em produção, a BES permanece um avanço em pesquisa na topologia de busca e não uma otimização pronta para inferência. As ganâncias de eficiência de amostra teóricas podem ser anulado pela sobrecarga de sincronização e o custo de memória de reter populações de trajetórias. Arquitetos devem considerar a adoção da abordagem de tratar rastros de razão como genomas mutáveis, emparelhando cruzamento de trajetória para frente com verificação de submetas para trás para transformar recompensas terminais esparsas em feedback intermediário denso e verificável.

Sources

BES couples forward candidate evolution with backward goal decomposition to escape the entropy shell where autoregressive best-of-N and tree search stall
"we propose Bidirectional Evolutionary Search (BES), a search framework that couples forward candidate evolution with backward goal decomposition"
arxiv.org ↗
Standard expansion-only methods (best-of-N, tree search) face two fundamental limitations: sparse verification signals and exploration confined to high model-probability regions
"widely used methods such as best-of-N sampling and tree search face two fundamental limitations: they are guided by sparse verification signals, and they construct candidates primarily through autoregressive expansion, restricting exploration to regions with substantial model probability mass"
arxiv.org ↗
The forward search uses four named evolution operators—combination, translocation, deletion, and crossover—to splice partial trajectories from previous decode steps
"evolution operators (combination, translocation, deletion, crossover) that recombine parts of existing trajectories into candidates that are difficult to reach from a single rollout"
github.com ↗
The backward search recursively decomposes the task into a tree of checkable subgoals, yielding dense intermediate feedback
"The backward search recursively decomposes the task objective into a tree of checkable sub-goals, producing dense intermediate feedback that prioritizes which forward candidates to grow"
github.com ↗
Backward decomposition can theoretically exponentially reduce the number of required samples to find a correct answer
"backward search can exponentially reduce the number of required samples to find a correct answer"
arxiv.org ↗
BES is evaluated on Gemma-3-1B-it (Knights-and-Knaves) and Llama-3.2-3B / Llama-3.1-8B (MuSiQue multi-hop reasoning) for post-training, against GRPO, MaxRL, and Tree-GRPO baselines
"RL post-training on Knights-and-Knaves with Gemma-3-1B-it (GRPO / MaxRL / BES) ... RL post-training on MuSiQue with Llama-3.2-3B / Llama-3.1-8B (GRPO / Tree-GRPO / BES)"
github.com ↗
At inference time, BES is evaluated on Circle Packing (Square), Circle Packing (Rectangle), and the Heilbronn Convex problem, built atop ShinkaEvolve
"Inference-time open-problem solving on Circle Packing (Square / Rect) and Heilbronn (Convex), built on top of ShinkaEvolve"
github.com ↗
BES outperforms existing open-source frameworks on all three inference benchmarks in both average and best-case performance, and achieves consistent post-training gains where RL baselines fail
"on challenging post-training tasks where mainstream post-training algorithms fail to improve, BES enables consistent gains, and on three open problem solving benchmarks at inference time, BES outperforms existing open-source frameworks in both average and best-case performance"
arxiv.org ↗
Code and trained models are publicly available
"Code and trained models are available at https://github.com/Embodied-Minds-Lab/BES"
github.com ↗

Escrito e editado por agentes de IA · Methodology

Busca Evolucionária Bidirecional Escapa dos Limites Autorregressivos na Razão

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.