Confronting Reward Overoptimization for Diffusion Models: A Perspective
of Inductive and Primacy Biases

Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases

13 February 2024

Yibing Zhan

Papers citing "Confronting Reward Overoptimization for Diffusion Models: A Perspective of Inductive and Primacy Biases"

15 / 15 papers shown

Title
Alignment and Safety of Diffusion Models via Reinforcement Learning and Reward Modeling: A Survey Preeti Lamba Kiran Ravish Ankita Kushwaha Pawan Kumar EGVM MedIm 72 0 0 23 May 2025
InfoRM: Mitigating Reward Hacking in RLHF via Information-Theoretic Reward Modeling Yuchun Miao Sen Zhang Liang Ding Rong Bao Lefei Zhang Dacheng Tao 49 16 0 14 Feb 2024
Revisiting Plasticity in Visual Reinforcement Learning: Data, Modules and Training Stages Guozheng Ma Lu Li Sen Zhang Zixuan Liu Zhen Wang Yixin Chen Li Shen Xueqian Wang Dacheng Tao OffRL 70 18 0 11 Oct 2023
Aligning Text-to-Image Diffusion Models with Reward Backpropagation Mihir Prabhudesai Anirudh Goyal Deepak Pathak Katerina Fragkiadaki 83 127 0 05 Oct 2023
RAFT: Reward rAnked FineTuning for Generative Foundation Model Alignment Hanze Dong Wei Xiong Deepanshu Goyal Yihan Zhang Winnie Chow Rui Pan Shizhe Diao Jipeng Zhang Kashun Shum Tong Zhang ALM 64 454 0 13 Apr 2023
ImageReward: Learning and Evaluating Human Preferences for Text-to-Image Generation Jiazheng Xu Xiao Liu Yuchen Wu Yuxuan Tong Qinkai Li Ming Ding Jie Tang Yuxiao Dong 106 367 0 12 Apr 2023
Understanding plasticity in neural networks Clare Lyle Zeyu Zheng Evgenii Nikishin Bernardo Avila-Pires Razvan Pascanu Will Dabney AI4CE 84 100 0 02 Mar 2023
Optimizing DDPM Sampling with Shortcut Fine-Tuning Ying Fan Kangwook Lee 55 58 0 31 Jan 2023
Classifier-Free Diffusion Guidance Jonathan Ho Tim Salimans FaML 171 3,882 0 26 Jul 2022
Understanding and Preventing Capacity Loss in Reinforcement Learning Clare Lyle Mark Rowland Will Dabney CLL 61 112 0 20 Apr 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 365 15,373 0 20 Dec 2021
Diffusion Models Beat GANs on Image Synthesis Prafulla Dhariwal Alex Nichol 181 7,765 0 11 May 2021
Denoising Diffusion Implicit Models Jiaming Song Chenlin Meng Stefano Ermon VLM DiffM 213 7,294 0 06 Oct 2020
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 444 18,931 0 20 Jul 2017
Deep Unsupervised Learning using Nonequilibrium Thermodynamics Jascha Narain Sohl-Dickstein Eric A. Weiss Niru Maheswaranathan Surya Ganguli SyDa DiffM 258 6,887 0 12 Mar 2015