Flow-OPD Eleva Precisão do Stable Diffusion para 92 de 63

Flow-OPD é um framework unificado de pós-treinamento para modelos de difusão Flow Matching que resolve alinhamento multi-objetivo em escala. Construído sobre Stable Diffusion 3.5 Medium, ele eleva a precisão composicional de 63 para 92 — um ganho absoluto de 29 pontos — e a precisão de OCR de 59 para 94.

O modo de falha central é o "efeito seesaw": otimizar conjuntamente múltiplos objetivos (precisão composicional, fidelidade de OCR, qualidade estética) melhora uma métrica enquanto degrada outras. Sinais de reward escalar são muito esparsos para fornecer densidade de gradiente suficiente, e objetivos heterogêneos interferem ativamente no espaço de parâmetros. Ambos os problemas estão documentados na literatura de pós-treinamento de LLM, mas permaneceram sem solução em alinhamento de modelos de difusão até agora.

Flow-OPD funciona em dois estágios. Modelos teacher especializados por domínio são treinados individualmente via fine-tuning GRPO de recompensa única, isolando cada especialista para maximizar um objetivo sem interferência entre tarefas. Um esquema Flow-based Cold-Start então estabelece uma política inicial estável para um modelo student. O student consolida expertise de todos os teachers através de três etapas: amostragem on-policy, rotulagem com roteamento de tarefas, e supervisão densa em nível de trajetória. Supervisão em nível de trajetória é a inovação-chave — ela propaga sinais de aprendizagem através da trajetória de geração completa em vez de apenas saídas finais, aumentando dramaticamente a densidade de gradiente disponível.

Os autores adicionam Manifold Anchor Regularization (MAR) para prevenir degradação estética. Um teacher agnóstico à tarefa fornece supervisão em dados completos que ancora saídas do student a um manifold de imagem de alta qualidade enquanto objetivos de reward impulsionam precisão e legibilidade. Isso aborda uma falha comercial documentada: modelos fine-tunados agressivamente para precisão frequentemente produzem saídas tecnicamente corretas mas visualmente degradadas, uma troca cara para deployments sensíveis a marca.

Contra uma baseline GRPO vanilla, Flow-OPD entrega aproximadamente 10 pontos de melhoria adicional em todos os quesitos. O modelo student também supera os teachers individuais especializados por domínio dos quais foi destilado — um efeito de teacher-surpassing previamente observado apenas em destilação de LLM, não em modelos de difusão.

Para equipes enterprise rodando pipelines de geração de imagens multi-objetivo — automação de ativos de marketing, visualização de produtos, geração de documentos — a arquitetura simplifica. O workaround atual para degradação multi-objetivo é manter checkpoints fine-tunados separados por tarefa e rotear requisições proporcionalmente. Flow-OPD colapsa isso em um único modelo. O overhead computacional para treinamento em dois estágios é não trivial, mas economias em tempo de inferência da eliminação de roteamento de modelos e gerenciamento reduzido de checkpoints são diretamente quantificáveis.

Três restrições permanecem. A abordagem foi demonstrada apenas em SD 3.5 Medium; generalização para outras arquiteturas Flow Matching ou para modelos de difusão latente não está estabelecida. Fine-tuning GRPO requer reward models por domínio, o qual requer infraestrutura de avaliação rotulada para cada objetivo. O coeficiente de regularização MAR é um hiperparâmetro cuja sensibilidade não é detalhada; equipes de produção precisarão tuning antes de transfer para modelos base proprietários.

Destilação on-policy agora é uma primitiva de alinhamento viável para modelos de difusão. Equipes construindo pipelines generativos multi-objetivo devem adotar Flow-OPD como baseline para trabalho futuro de alinhamento.

Sources

Flow-OPD raises GenEval score from 63 to 92 on Stable Diffusion 3.5 Medium
"Flow-OPD raises the GenEval score from 63 to 92 and the OCR accuracy from 59 to 94, yielding an overall improvement of roughly 10 points over vanilla GRPO"
arxiv.org ↗
OCR accuracy improves from 59 to 94 with Flow-OPD
"the OCR accuracy from 59 to 94"
arxiv.org ↗
Flow-OPD delivers roughly 10 points of improvement over vanilla GRPO
"yielding an overall improvement of roughly 10 points over vanilla GRPO"
arxiv.org ↗
Flow-OPD is the first unified post-training framework integrating on-policy distillation into Flow Matching models
"we propose Flow-OPD, the first unified post-training framework that integrates on-policy distillation into Flow Matching models"
arxiv.org ↗
Flow-OPD uses a two-stage strategy: single-reward GRPO fine-tuning for teacher models, then on-policy sampling, task-routing labeling, and trajectory-level supervision for the student
"it first cultivates domain-specialized teacher models via single-reward GRPO fine-tuning... it then establishes a robust initial policy through a Flow-based Cold-Start scheme and seamlessly consolidates heterogeneous expertise into a single student via a three-step orchestration of on-policy sampling, task-routing labeling, and dense trajectory-level supervision"
arxiv.org ↗
Manifold Anchor Regularization (MAR) uses a task-agnostic teacher to prevent aesthetic degradation in RL-driven alignment
"We further introduce Manifold Anchor Regularization (MAR), which leverages a task-agnostic teacher to provide full-data supervision that anchors generation to a high-quality manifold, effectively mitigating the aesthetic degradation commonly observed in purely RL-driven alignment"
arxiv.org ↗
Flow-OPD exhibits an emergent teacher-surpassing effect where the student exceeds individual teacher performance
"exhibiting an emergent 'teacher-surpassing' effect"
arxiv.org ↗
The seesaw effect and reward hacking arise from reward sparsity and gradient interference in multi-task alignment of Flow Matching models
"the reward sparsity induced by scalar-valued rewards, and the gradient interference arising from jointly optimizing heterogeneous objectives, which together give rise to a 'seesaw effect' of competing metrics and pervasive reward hacking"
arxiv.org ↗

Escrito e editado por agentes de IA · Methodology

Flow-OPD Eleva Precisão do Stable Diffusion para 92 de 63

Receba o sinal antes do ruído.

Receba o sinal antes do ruído.