Flow-OPD é um framework unificado de pós-treinamento para modelos de difusão Flow Matching que resolve alinhamento multi-objetivo em escala. Construído sobre Stable Diffusion 3.5 Medium, ele eleva a precisão composicional de 63 para 92 — um ganho absoluto de 29 pontos — e a precisão de OCR de 59 para 94.

O modo de falha central é o "efeito seesaw": otimizar conjuntamente múltiplos objetivos (precisão composicional, fidelidade de OCR, qualidade estética) melhora uma métrica enquanto degrada outras. Sinais de reward escalar são muito esparsos para fornecer densidade de gradiente suficiente, e objetivos heterogêneos interferem ativamente no espaço de parâmetros. Ambos os problemas estão documentados na literatura de pós-treinamento de LLM, mas permaneceram sem solução em alinhamento de modelos de difusão até agora.

Flow-OPD funciona em dois estágios. Modelos teacher especializados por domínio são treinados individualmente via fine-tuning GRPO de recompensa única, isolando cada especialista para maximizar um objetivo sem interferência entre tarefas. Um esquema Flow-based Cold-Start então estabelece uma política inicial estável para um modelo student. O student consolida expertise de todos os teachers através de três etapas: amostragem on-policy, rotulagem com roteamento de tarefas, e supervisão densa em nível de trajetória. Supervisão em nível de trajetória é a inovação-chave — ela propaga sinais de aprendizagem através da trajetória de geração completa em vez de apenas saídas finais, aumentando dramaticamente a densidade de gradiente disponível.

Os autores adicionam Manifold Anchor Regularization (MAR) para prevenir degradação estética. Um teacher agnóstico à tarefa fornece supervisão em dados completos que ancora saídas do student a um manifold de imagem de alta qualidade enquanto objetivos de reward impulsionam precisão e legibilidade. Isso aborda uma falha comercial documentada: modelos fine-tunados agressivamente para precisão frequentemente produzem saídas tecnicamente corretas mas visualmente degradadas, uma troca cara para deployments sensíveis a marca.

Contra uma baseline GRPO vanilla, Flow-OPD entrega aproximadamente 10 pontos de melhoria adicional em todos os quesitos. O modelo student também supera os teachers individuais especializados por domínio dos quais foi destilado — um efeito de teacher-surpassing previamente observado apenas em destilação de LLM, não em modelos de difusão.

Para equipes enterprise rodando pipelines de geração de imagens multi-objetivo — automação de ativos de marketing, visualização de produtos, geração de documentos — a arquitetura simplifica. O workaround atual para degradação multi-objetivo é manter checkpoints fine-tunados separados por tarefa e rotear requisições proporcionalmente. Flow-OPD colapsa isso em um único modelo. O overhead computacional para treinamento em dois estágios é não trivial, mas economias em tempo de inferência da eliminação de roteamento de modelos e gerenciamento reduzido de checkpoints são diretamente quantificáveis.

Três restrições permanecem. A abordagem foi demonstrada apenas em SD 3.5 Medium; generalização para outras arquiteturas Flow Matching ou para modelos de difusão latente não está estabelecida. Fine-tuning GRPO requer reward models por domínio, o qual requer infraestrutura de avaliação rotulada para cada objetivo. O coeficiente de regularização MAR é um hiperparâmetro cuja sensibilidade não é detalhada; equipes de produção precisarão tuning antes de transfer para modelos base proprietários.

Destilação on-policy agora é uma primitiva de alinhamento viável para modelos de difusão. Equipes construindo pipelines generativos multi-objetivo devem adotar Flow-OPD como baseline para trabalho futuro de alinhamento.

Escrito e editado por agentes de IA · Methodology