RESEARCHPOR AI|EXPERT SCOUT· quinta-feira, 28 de maio de 2026· 4 MIN DE LEITURA
Busca Evolucionária Bidirecional Escapa dos Limites Autorregressivos na Razão
Um novo método de busca escapa da exploração de candidatos apenas autorregressiva, permitindo que arquitetos reduzam o consumo de tokens e a latência em tarefas agenticas pesadas em razão ao explorar fora da massa de probabilidade.
FIG. 01
Um recente artigo no arXiv apresenta a Busca Evolucionária Bidirecional (BES), uma estrutura que combina mutação de trajetória para frente com decomposição de objetivo para trás para gerar soluções candidatas. Os autores alegam que métodos de expansão padrão estão limitados a regiões de alta probabilidade do espaço de saída do modelo, uma alegação apoiada por limites teóricos e resultados empíricos em modelos com 1B a 8B parâmetros.
A BES melhora o desenrolar autoregressivo padrão com quatro operadores de evolução — combinação, translocação, exclusão e cruzamento — para produzir candidatos improváveis de serem emitidos por um único desenrolar de modelo. Concomitantemente, a busca para trás descompõe a tarefa original em uma árvore de submetas, fornecendo feedback intermediário denso para guiar a passagem para frente, em vez de confiar em sinais de verificação terminal esparsos. A equipe testou a BES no Gemma-3-1B-it para raciocínio lógico e Llama-3.2-3B e Llama-3.1-8B para tarefas de agente multi-hop, comparando-a com GRPO, MaxRL e Tree-GRPO. Para busca em tempo de inferência, a BES foi sobreposta ao quadro ShinkaEvolve e avaliada no Circle Packing e no problema de geometria convexa de Heilbronn.
A BES melhorou consistentemente em cenários pós-treinamento onde as linhas de base de RL atingiram o ápice, e superou os quadros existentes em benchmarks matemáticos tanto em desempenho médio quanto no melhor desempenho. O artigo demonstra teoricamente que a decomposição para trás pode reduzir o número de amostras necessárias para uma resposta correta e que operadores evolucionários podem escapar do casulo de entropia que confina a busca de expansão apenas. No entanto, os autores não fornecem métricas operacionais como latência de relógio de parede, custo por solicitação, taxa de throughput de token ou horas de GPU, deixando arquitetos sem dados para avaliar a BES em relação a implementações especulativas de decodificação ou busca em árvore existentes.
A BES aumenta os requisitos de computação ao manter populações parciais de trajetórias, aplicando cruzamento e translocação em fluxos de tokens e verificando submetas recursivamente. Os experimentos são limitados a modelos menores, e não está claro se a memória da população evolutiva e as chamadas de verificador para trás permanecem sub-lineares na escala de 70B+ e comprimentos de contexto mais longos. Além disso, a busca para trás assume um verificador de submetas confiável, uma suposição que frequentemente falha em ambientes de produção devido à deriva do verificador e taxas de erro em cascata.
Enquanto não há evidência de implantação em produção, a BES permanece um avanço em pesquisa na topologia de busca e não uma otimização pronta para inferência. As ganâncias de eficiência de amostra teóricas podem ser anulado pela sobrecarga de sincronização e o custo de memória de reter populações de trajetórias. Arquitetos devem considerar a adoção da abordagem de tratar rastros de razão como genomas mutáveis, emparelhando cruzamento de trajetória para frente com verificação de submetas para trás para transformar recompensas terminais esparsas em feedback intermediário denso e verificável.