Direct Unlearning Optimization for Robust and Safe Text-to-Image Models

17 January 2025

Papers citing "Direct Unlearning Optimization for Robust and Safe Text-to-Image Models"

50 / 63 papers shown

Title
Erasing Concepts, Steering Generations: A Comprehensive Survey of Concept Suppression Yiwei Xie Ping Liu Zheng Zhang 79 0 0 26 May 2025
CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models Shristi Das Biswas Arani Roy Kaushik Roy DiffM 84 0 0 19 May 2025
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts Leyang Li Shilin Lu Yan Ren A. Kong DiffM 80 3 0 17 Apr 2025
Dual Caption Preference Optimization for Diffusion Models Amir Saeidi Yiran Luo Agneet Chatterjee Shamanthak Hegde Bimsara Pathiraja Yezhou Yang Chitta Baral DiffM 76 0 0 09 Feb 2025
CE-SDWV: Effective and Efficient Concept Erasure for Text-to-Image Diffusion Models via a Semantic-Driven Word Vocabulary Jiahang Tu Qian Feng Chufan Chen Jiahua Dong Hanbin Zhao Chao Zhang Hui Qian 90 4 0 28 Jan 2025
Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization Jiangweizhi Peng Zhiwei Tang Gaowen Liu Charles Fleming Mingyi Hong 110 3 0 05 Dec 2024
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey Xuannan Liu Xing Cui Peipei Li Zekun Li Huaibo Huang Shuhan Xia Miaoxuan Zhang Yueying Zou Ran He AAML 85 8 0 14 Nov 2024
Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts Hongcheng Gao Tianyu Pang Chao Du Taihang Hu Zhijie Deng Min Lin DiffM 83 11 0 16 Oct 2024
SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation Jaehong Yoon Shoubin Yu Vaidehi Patil Huaxiu Yao Joey Tianyi Zhou 111 22 0 16 Oct 2024
T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models Yibo Miao Yifan Zhu Yinpeng Dong Lijia Yu Jun Zhu Xiao-Shan Gao EGVM 76 15 0 08 Jul 2024
Towards Scalable Exact Machine Unlearning Using Parameter-Efficient Fine-Tuning Somnath Basu Roy Chowdhury Krzysztof Choromanski Arijit Sehanobish Avinava Dubey Snigdha Chaturvedi MU 82 8 0 24 Jun 2024
Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective Xiaoxuan Han Songlin Yang Wei Wang Yang Li Jing Dong DiffM AAML 68 6 0 30 Apr 2024
Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning Ruiqi Zhang Licong Lin Yu Bai Song Mei MU 107 166 0 08 Apr 2024
Aligning Diffusion Models by Optimizing Human Utility Shufan Li Konstantinos Kallidromitis Akash Gokul Yusuke Kato Kazuki Kozuka 129 33 0 06 Apr 2024
MACE: Mass Concept Erasure in Diffusion Models Shilin Lu Zilan Wang Leyang Li Yanzhu Liu A. Kong DiffM 78 88 0 10 Mar 2024
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis Patrick Esser Sumith Kulal A. Blattmann Rahim Entezari Jonas Muller ... Zion English Kyle Lacey Alex Goodwin Yannik Marek Robin Rombach DiffM 244 1,301 0 05 Mar 2024
KTO: Model Alignment as Prospect Theoretic Optimization Kawin Ethayarajh Winnie Xu Niklas Muennighoff Dan Jurafsky Douwe Kiela 238 532 0 02 Feb 2024
GPT-4V(ision) is a Human-Aligned Evaluator for Text-to-3D Generation Tong Wu Guandao Yang Zhibing Li Kai Zhang Ziwei Liu Leonidas Guibas Dahua Lin Gordon Wetzstein EGVM VGen 59 94 0 08 Jan 2024
One-Dimensional Adapter to Rule Them All: Concepts, Diffusion Models and Erasing Applications Mengyao Lyu Yuhong Yang Haiwen Hong Hui Chen Xuan Jin Yuan He Hui Xue Jungong Han Guiguang Ding DiffM 53 65 0 26 Dec 2023
Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model Kai Yang Jian Tao Jiafei Lyu Chunjiang Ge Jiaxin Chen Qimai Li Weihan Shen Xiaolong Zhu Xiu Li EGVM 51 103 0 22 Nov 2023
Diffusion Model Alignment Using Direct Preference Optimization Bram Wallace Meihua Dang Rafael Rafailov Linqi Zhou Aaron Lou Senthil Purushwalkam Stefano Ermon Caiming Xiong Shafiq Joty Nikhil Naik EGVM 105 262 0 21 Nov 2023
Unlearn What You Want to Forget: Efficient Unlearning for LLMs Jiaao Chen Diyi Yang MU 62 154 0 31 Oct 2023
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images Aaron Gokaslan A. Feder Cooper Jasmine Collins Landan Seguin Austin Jacobson Mihir Patel Jonathan Frankle Cory Stephenson Volodymyr Kuleshov DiffM 56 17 0 25 Oct 2023
To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now Yimeng Zhang Jinghan Jia Xin Chen Aochuan Chen Yihua Zhang Jiancheng Liu Ke Ding Sijia Liu DiffM 95 94 0 18 Oct 2023
Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? Yu-Lin Tsai Chia-Yi Hsu Chulin Xie Chih-Hsun Lin Jia-You Chen Yue Liu Pin-Yu Chen Chia-Mu Yu Chun-ying Huang DiffM 73 84 0 16 Oct 2023
Large Language Model Unlearning Yuanshun Yao Xiaojun Xu Yang Liu MU 69 130 0 14 Oct 2023
The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) Zhengyuan Yang Linjie Li Kevin Qinghong Lin Jianfeng Wang Chung-Ching Lin Nasim Shakouri Mahmoudabadi Lijuan Wang LM&MA 49 630 0 29 Sep 2023
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts Zhi-Yi Chin Chieh-Ming Jiang Ching-Chun Huang Pin-Yu Chen Wei-Chen Chiu DiffM 38 72 0 12 Sep 2023
Unified Concept Editing in Diffusion Models Rohit Gandikota Hadas Orgad Yonatan Belinkov Joanna Materzyñska David Bau DiffM 85 185 0 25 Aug 2023
Circumventing Concept Erasure Methods For Text-to-Image Generative Models Minh Pham Kelly O. Marshall Niv Cohen Govind Mittal Chinmay Hegde DiffM 41 45 0 03 Aug 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 313 3,895 0 29 May 2023
Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained Models Guillermo Ortiz-Jiménez Alessandro Favero P. Frossard MoMe 99 122 0 22 May 2023
SneakyPrompt: Jailbreaking Text-to-image Generative Models Yuchen Yang Bo Hui Haolin Yuan Neil Zhenqiang Gong Yinzhi Cao EGVM 118 85 0 20 May 2023
Selective Amnesia: A Continual Learning Approach to Forgetting in Deep Generative Models Alvin Heng Harold Soh VLM KELM DiffM 63 113 0 17 May 2023
Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models Eric Zhang Kai Wang Xingqian Xu Zhangyang Wang Humphrey Shi DiffM 77 188 0 30 Mar 2023
Ablating Concepts in Text-to-Image Diffusion Models Nupur Kumari Bin Zhang Sheng-Yu Wang Eli Shechtman Richard Y. Zhang Jun-Yan Zhu VLM 42 198 0 23 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.2K 14,179 0 15 Mar 2023
Editing Implicit Assumptions in Text-to-Image Diffusion Models Hadas Orgad Bahjat Kawar Yonatan Belinkov DiffM 76 88 0 14 Mar 2023
Erasing Concepts from Diffusion Models Rohit Gandikota Joanna Materzyñska Jaden Fiotto-Kaufman David Bau DiffM 65 302 0 13 Mar 2023
Aligning Language Models with Preferences through f-divergence Minimization Dongyoung Go Tomasz Korbak Germán Kruszewski Jos Rozen Nahyeon Ryu Marc Dymetman 57 75 0 16 Feb 2023
Adding Conditional Control to Text-to-Image Diffusion Models Lvmin Zhang Anyi Rao Maneesh Agrawala AI4CE 105 4,074 1 10 Feb 2023
Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models P. Schramowski Manuel Brack Bjorn Deiseroth Kristian Kersting 118 296 0 09 Nov 2022
LAION-5B: An open large-scale dataset for training next generation image-text models Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman ... Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt R. Kaczmarczyk J. Jitsev VLM MLLM CLIP 139 3,438 0 16 Oct 2022
Imagen Video: High Definition Video Generation with Diffusion Models Jonathan Ho William Chan Chitwan Saharia Jay Whang Ruiqi Gao ... Diederik P. Kingma Ben Poole Mohammad Norouzi David J. Fleet Tim Salimans VGen 105 1,518 0 05 Oct 2022
Red-Teaming the Stable Diffusion Safety Filter Javier Rando Daniel Paleka David Lindner Lennard Heim Florian Tramèr DiffM 161 195 0 03 Oct 2022
Understanding Diffusion Models: A Unified Perspective Calvin Luo DiffM 77 341 0 25 Aug 2022
Classifier-Free Diffusion Guidance Jonathan Ho Tim Salimans FaML 171 3,882 0 26 Jul 2022
On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting Tomasz Korbak Hady ElSahar Germán Kruszewski Marc Dymetman CLL 64 55 0 01 Jun 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 350 6,830 0 13 Apr 2022
Can Machines Help Us Answering Question 16 in Datasheets, and In Turn Reflecting on Inappropriate Content? P. Schramowski Christopher Tauchmann Kristian Kersting FaML 83 94 0 14 Feb 2022