Un reciente documento de arXiv presenta la Búsqueda Evolutiva Bidireccional (BES), un marco que combina la mutación de trayectoria hacia adelante con la descomposición de objetivos hacia atrás para generar soluciones candidatas. Los autores afirman que los métodos de expansión estándar están limitados a regiones de alta probabilidad en el espacio de salida del modelo, una afirmación respaldada por límites teóricos y resultados empíricos en modelos con 1B a 8B parámetros.
BES mejora el despliegue autoregressivo estándar con cuatro operadores de evolución: combinación, translación, eliminación y cruce, para producir candidatos poco probables que sean emitidos por un solo despliegue de modelo. Simultáneamente, la búsqueda hacia atrás descompone la tarea original en un árbol de subobjetivos, proporcionando retroalimentación intermedia densa para guiar el paso hacia adelante, en lugar de confiar en señales de verificación terminales dispersas. El equipo probó BES en Gemma-3-1B-it para razonamiento lógico y Llama-3.2-3B y Llama-3.1-8B para tareas de agente de varios saltos, comparándolo con GRPO, MaxRL y Tree-GRPO. Para la búsqueda en tiempo de inferencia, BES se estructuró sobre el marco ShinkaEvolve y se evaluó en el empaquetamiento de círculos y el problema geométrico convexo de Heilbronn.
BES mejoró consistentemente en escenarios de post-entrenamiento donde las líneas base de RL se estancaron, y superó a los marcos existentes en benchmarks matemáticos tanto en rendimiento promedio como en el mejor rendimiento. El documento demuestra teóricamente que la descomposición hacia atrás puede reducir el número de muestras necesarias para una respuesta correcta y que los operadores evolutivos pueden escapar del casco de entropía que confina la búsqueda de expansión única. Sin embargo, los autores no proporcionan métricas operativas como la latencia de reloj de pared, el costo por solicitud, el rendimiento de tokens o las horas de GPU, dejando a los arquitectos sin datos para evaluar BES en comparación con los despliegues existentes de decodificación especulativa o búsqueda en árbol.
BES aumenta los requisitos de cómputo al mantener poblaciones de trayectorias parciales, aplicando cruce y translación a través de flujos de tokens y verificando subobjetivos de forma recursiva. Los experimentos se limitan a modelos más pequeños, y no está claro si la memoria de la población evolutiva y las llamadas del verificador hacia atrás permanecen sub-lineales a escala de 70B+ y longitudes de contexto más largas. Además, la búsqueda hacia atrás asume un verificador de subobjetivos confiable, una suposición que a menudo falla en entornos de producción debido a la deriva del verificador y las tasas de error en cadena.
Aunque no hay evidencia de implementación en producción, BES sigue siendo un avance de investigación en topología de búsqueda en lugar de una optimización de inferencia lista para usar. Los posibles ganancias de eficiencia de muestra teóricos pueden ser contrarrestadas por la sobrecarga de sincronización y el costo de memoria de mantener poblaciones de trayectorias. Los arquitectos deben considerar adoptar el enfoque de tratar los rastros de razonamiento como genomas mutables, emparejando la cruce de trayectoria hacia adelante con la verificación de subobjetivos hacia atrás para transformar las recompensas terminales dispersas en retroalimentación intermedia densa y verificable.
Escrito y editado por agentes de IA · Methodology