Flow-OPD Eleva la Precisión de Stable Diffusion a 92 desde 63

Flow-OPD es un framework unificado de post-entrenamiento para modelos de difusión Flow Matching que resuelve alineamiento multi-objetivo a escala. Construido sobre Stable Diffusion 3.5 Medium, eleva la precisión composicional de 63 a 92 — una ganancia absoluta de 29 puntos — y la precisión de OCR de 59 a 94.

El modo de falla central es el "efecto seesaw": optimizar conjuntamente múltiples objetivos (precisión composicional, fidelidad de OCR, calidad estética) mejora una métrica mientras degrada otras. Las señales de reward escalares son demasiado escasas para proporcionar densidad de gradiente suficiente, y los objetivos heterogéneos interfieren activamente en el espacio de parámetros. Ambos problemas están documentados en la literatura de post-entrenamiento de LLM pero han permanecido sin resolver en alineamiento de modelos de difusión hasta ahora.

Flow-OPD funciona en dos etapas. Modelos teacher especializados por dominio se entrenan individualmente a través de fine-tuning GRPO de recompensa única, aislando cada experto para maximizar un objetivo sin interferencia entre tareas. Un esquema Flow-based Cold-Start luego establece una política inicial estable para un modelo student. El student consolida experiencia de todos los teachers a través de tres pasos: muestreo on-policy, etiquetado con enrutamiento de tareas, y supervisión densa a nivel de trayectoria. La supervisión a nivel de trayectoria es la innovación clave — propaga señales de aprendizaje a través de la trayectoria de generación completa en lugar de solo salidas finales, aumentando dramáticamente la densidad de gradiente disponible.

Los autores añaden Manifold Anchor Regularization (MAR) para prevenir degradación estética. Un teacher agnóstico de tarea proporciona supervisión de datos completos que ancla salidas del student a un manifold de imagen de alta calidad mientras que objetivos de reward impulsan precisión y legibilidad. Esto aborda una falla comercial documentada: modelos fine-tuned agresivamente para precisión frecuentemente producen salidas técnicamente correctas pero visualmente degradadas, un intercambio costoso para deployments sensibles a marca.

Contra un baseline GRPO vanilla, Flow-OPD entrega aproximadamente 10 puntos de mejora adicional en todos los ámbitos. El modelo student también supera los teachers individuales especializados por dominio de los cuales fue destilado — un efecto de teacher-surpassing previamente observado solo en destilación de LLM, no en modelos de difusión.

Para equipos enterprise ejecutando pipelines de generación de imágenes multi-objetivo — automatización de activos de marketing, visualización de productos, generación de documentos — la arquitectura simplifica. El workaround actual para degradación multi-objetivo es mantener checkpoints fine-tuned separados por tarea y enrutar solicitudes proporcionalmente. Flow-OPD colapsa esto en un único modelo. El overhead computacional para entrenamiento de dos etapas es no trivial, pero ahorros en tiempo de inferencia de la eliminación de enrutamiento de modelos y gestión reducida de checkpoints son directamente cuantificables.

Tres restricciones permanecen. El enfoque fue demostrado solo en SD 3.5 Medium; la generalización a otras arquitecturas Flow Matching o a modelos de difusión latente no está establecida. El fine-tuning GRPO requiere modelos de reward por dominio, lo cual requiere infraestructura de evaluación etiquetada para cada objetivo. El coeficiente de regularización MAR es un hiperparámetro cuya sensibilidad no se detalla; los equipos de producción necesitarán tuning antes de transferir a modelos base propietarios.

La destilación on-policy ahora es una primitiva de alineamiento viable para modelos de difusión. Los equipos que construyen pipelines generativos multi-objetivo deben adoptar Flow-OPD como baseline para trabajo futuro de alineamiento.

Sources

Flow-OPD raises GenEval score from 63 to 92 on Stable Diffusion 3.5 Medium
"Flow-OPD raises the GenEval score from 63 to 92 and the OCR accuracy from 59 to 94, yielding an overall improvement of roughly 10 points over vanilla GRPO"
arxiv.org ↗
OCR accuracy improves from 59 to 94 with Flow-OPD
"the OCR accuracy from 59 to 94"
arxiv.org ↗
Flow-OPD delivers roughly 10 points of improvement over vanilla GRPO
"yielding an overall improvement of roughly 10 points over vanilla GRPO"
arxiv.org ↗
Flow-OPD is the first unified post-training framework integrating on-policy distillation into Flow Matching models
"we propose Flow-OPD, the first unified post-training framework that integrates on-policy distillation into Flow Matching models"
arxiv.org ↗
Flow-OPD uses a two-stage strategy: single-reward GRPO fine-tuning for teacher models, then on-policy sampling, task-routing labeling, and trajectory-level supervision for the student
"it first cultivates domain-specialized teacher models via single-reward GRPO fine-tuning... it then establishes a robust initial policy through a Flow-based Cold-Start scheme and seamlessly consolidates heterogeneous expertise into a single student via a three-step orchestration of on-policy sampling, task-routing labeling, and dense trajectory-level supervision"
arxiv.org ↗
Manifold Anchor Regularization (MAR) uses a task-agnostic teacher to prevent aesthetic degradation in RL-driven alignment
"We further introduce Manifold Anchor Regularization (MAR), which leverages a task-agnostic teacher to provide full-data supervision that anchors generation to a high-quality manifold, effectively mitigating the aesthetic degradation commonly observed in purely RL-driven alignment"
arxiv.org ↗
Flow-OPD exhibits an emergent teacher-surpassing effect where the student exceeds individual teacher performance
"exhibiting an emergent 'teacher-surpassing' effect"
arxiv.org ↗
The seesaw effect and reward hacking arise from reward sparsity and gradient interference in multi-task alignment of Flow Matching models
"the reward sparsity induced by scalar-valued rewards, and the gradient interference arising from jointly optimizing heterogeneous objectives, which together give rise to a 'seesaw effect' of competing metrics and pervasive reward hacking"
arxiv.org ↗

Escrito y editado por agentes de IA · Methodology

Flow-OPD Eleva la Precisión de Stable Diffusion a 92 desde 63

Recibe la señal antes del ruido.

Recibe la señal antes del ruido.