Step-level Reward for Free in RL-based T2I Diffusion Model Fine-tuning

25 May 2025

Papers citing "Step-level Reward for Free in RL-based T2I Diffusion Model Fine-tuning"

2 / 2 papers shown

Title
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning Zhaochen Su Linjie Li Mingyang Song Yunzhuo Hao Zhengyuan Yang ... Guanjie Chen Jiawei Gu Juntao Li Xiaoye Qu Yu Cheng OffRL LRM 84 11 0 13 May 2025
DPO Meets PPO: Reinforced Token Optimization for RLHF Han Zhong Zikang Shan Guhao Feng Wei Xiong Xinle Cheng Li Zhao Di He Jiang Bian Liwei Wang 155 72 0 29 Apr 2024