La Búsqueda Evolutiva Bidireccional Evita los Límites Autorregressivos en el Razonamiento

Un reciente documento de arXiv presenta la Búsqueda Evolutiva Bidireccional (BES), un marco que combina la mutación de trayectoria hacia adelante con la descomposición de objetivos hacia atrás para generar soluciones candidatas. Los autores afirman que los métodos de expansión estándar están limitados a regiones de alta probabilidad en el espacio de salida del modelo, una afirmación respaldada por límites teóricos y resultados empíricos en modelos con 1B a 8B parámetros.

BES mejora el despliegue autoregressivo estándar con cuatro operadores de evolución: combinación, translación, eliminación y cruce, para producir candidatos poco probables que sean emitidos por un solo despliegue de modelo. Simultáneamente, la búsqueda hacia atrás descompone la tarea original en un árbol de subobjetivos, proporcionando retroalimentación intermedia densa para guiar el paso hacia adelante, en lugar de confiar en señales de verificación terminales dispersas. El equipo probó BES en Gemma-3-1B-it para razonamiento lógico y Llama-3.2-3B y Llama-3.1-8B para tareas de agente de varios saltos, comparándolo con GRPO, MaxRL y Tree-GRPO. Para la búsqueda en tiempo de inferencia, BES se estructuró sobre el marco ShinkaEvolve y se evaluó en el empaquetamiento de círculos y el problema geométrico convexo de Heilbronn.

BES mejoró consistentemente en escenarios de post-entrenamiento donde las líneas base de RL se estancaron, y superó a los marcos existentes en benchmarks matemáticos tanto en rendimiento promedio como en el mejor rendimiento. El documento demuestra teóricamente que la descomposición hacia atrás puede reducir el número de muestras necesarias para una respuesta correcta y que los operadores evolutivos pueden escapar del casco de entropía que confina la búsqueda de expansión única. Sin embargo, los autores no proporcionan métricas operativas como la latencia de reloj de pared, el costo por solicitud, el rendimiento de tokens o las horas de GPU, dejando a los arquitectos sin datos para evaluar BES en comparación con los despliegues existentes de decodificación especulativa o búsqueda en árbol.

BES aumenta los requisitos de cómputo al mantener poblaciones de trayectorias parciales, aplicando cruce y translación a través de flujos de tokens y verificando subobjetivos de forma recursiva. Los experimentos se limitan a modelos más pequeños, y no está claro si la memoria de la población evolutiva y las llamadas del verificador hacia atrás permanecen sub-lineales a escala de 70B+ y longitudes de contexto más largas. Además, la búsqueda hacia atrás asume un verificador de subobjetivos confiable, una suposición que a menudo falla en entornos de producción debido a la deriva del verificador y las tasas de error en cadena.

Aunque no hay evidencia de implementación en producción, BES sigue siendo un avance de investigación en topología de búsqueda en lugar de una optimización de inferencia lista para usar. Los posibles ganancias de eficiencia de muestra teóricos pueden ser contrarrestadas por la sobrecarga de sincronización y el costo de memoria de mantener poblaciones de trayectorias. Los arquitectos deben considerar adoptar el enfoque de tratar los rastros de razonamiento como genomas mutables, emparejando la cruce de trayectoria hacia adelante con la verificación de subobjetivos hacia atrás para transformar las recompensas terminales dispersas en retroalimentación intermedia densa y verificable.

Sources

BES couples forward candidate evolution with backward goal decomposition to escape the entropy shell where autoregressive best-of-N and tree search stall
"we propose Bidirectional Evolutionary Search (BES), a search framework that couples forward candidate evolution with backward goal decomposition"
arxiv.org ↗
Standard expansion-only methods (best-of-N, tree search) face two fundamental limitations: sparse verification signals and exploration confined to high model-probability regions
"widely used methods such as best-of-N sampling and tree search face two fundamental limitations: they are guided by sparse verification signals, and they construct candidates primarily through autoregressive expansion, restricting exploration to regions with substantial model probability mass"
arxiv.org ↗
The forward search uses four named evolution operators—combination, translocation, deletion, and crossover—to splice partial trajectories from previous decode steps
"evolution operators (combination, translocation, deletion, crossover) that recombine parts of existing trajectories into candidates that are difficult to reach from a single rollout"
github.com ↗
The backward search recursively decomposes the task into a tree of checkable subgoals, yielding dense intermediate feedback
"The backward search recursively decomposes the task objective into a tree of checkable sub-goals, producing dense intermediate feedback that prioritizes which forward candidates to grow"
github.com ↗
Backward decomposition can theoretically exponentially reduce the number of required samples to find a correct answer
"backward search can exponentially reduce the number of required samples to find a correct answer"
arxiv.org ↗
BES is evaluated on Gemma-3-1B-it (Knights-and-Knaves) and Llama-3.2-3B / Llama-3.1-8B (MuSiQue multi-hop reasoning) for post-training, against GRPO, MaxRL, and Tree-GRPO baselines
"RL post-training on Knights-and-Knaves with Gemma-3-1B-it (GRPO / MaxRL / BES) ... RL post-training on MuSiQue with Llama-3.2-3B / Llama-3.1-8B (GRPO / Tree-GRPO / BES)"
github.com ↗
At inference time, BES is evaluated on Circle Packing (Square), Circle Packing (Rectangle), and the Heilbronn Convex problem, built atop ShinkaEvolve
"Inference-time open-problem solving on Circle Packing (Square / Rect) and Heilbronn (Convex), built on top of ShinkaEvolve"
github.com ↗
BES outperforms existing open-source frameworks on all three inference benchmarks in both average and best-case performance, and achieves consistent post-training gains where RL baselines fail
"on challenging post-training tasks where mainstream post-training algorithms fail to improve, BES enables consistent gains, and on three open problem solving benchmarks at inference time, BES outperforms existing open-source frameworks in both average and best-case performance"
arxiv.org ↗
Code and trained models are publicly available
"Code and trained models are available at https://github.com/Embodied-Minds-Lab/BES"
github.com ↗

Escrito y editado por agentes de IA · Methodology

La Búsqueda Evolutiva Bidireccional Evita los Límites Autorregressivos en el Razonamiento

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.