v1v2v3v4 (latest)

To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now

18 October 2023

ArXiv (abs)PDF HTML Github (76★)

Papers citing "To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now"

50 / 97 papers shown

Title
When Are Concepts Erased From Diffusion Models? Kevin Lu Nicky Kriplani Rohit Gandikota Minh Pham David Bau Chinmay Hegde Niv Cohen 66 0 0 22 May 2025
One Image is Worth a Thousand Words: A Usability Preservable Text-Image Collaborative Erasing Framework Feiran Li Qianqian Xu Shilong Bao Zhiyong Yang Xiaochun Cao Qingming Huang DiffM 103 0 0 16 May 2025
CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models Yuyang Xue Edward Moroshko Feng Chen Jingyu Sun Steven McDonagh Sotirios A. Tsaftaris 96 2 0 18 Mar 2025
Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models Reza Shirkavand Peiran Yu Shangqian Gao Gowthami Somepalli Tom Goldstein Heng-Chiao Huang 175 2 0 13 Mar 2025
On the Vulnerability of Concept Erasure in Diffusion Models Lucas Beerens Alex D. Richardson Peng Sun Dongdong Chen DiffM 155 2 0 24 Feb 2025
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders Bartosz Cywiński Kamil Deja DiffM 122 9 0 29 Jan 2025
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models Yong-Hyun Park Sangdoo Yun Jin-Hwa Kim Junho Kim Geonhui Jang Yonghyun Jeong Junghyo Jo Gayoung Lee 142 19 0 17 Jan 2025
COAP: Memory-Efficient Training with Correlation-Aware Gradient Projection Jinqi Xiao S. Sang Tiancheng Zhi Jing Liu Qing Yan Linjie Luo Bo Yuan Bo Yuan VLM 185 2 0 26 Nov 2024
Edit Away and My Face Will not Stay: Personal Biometric Defense against Malicious Generative Editing Hanhui Wang Yihua Zhang Ruizheng Bai Yue Zhao Sijia Liu Zhuowen Tu AAML PICV 157 2 0 25 Nov 2024
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models Zhi-Yi Chin Kuan-Chen Mu Mario Fritz Pin-Yu Chen DiffM 170 1 0 25 Nov 2024
MUNBa: Machine Unlearning via Nash Bargaining Jing Wu Mehrtash Harandi MU 139 5 0 23 Nov 2024
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction Jordan Vice Naveed Akhtar Leonid Sigal Ajmal Mian Ajmal Mian DiffM 144 0 0 21 Nov 2024
Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation Anh-Vu Bui L. Vuong Khanh Doan Trung Le Paul Montague Tamas Abraham Dinh Q. Phung KELM DiffM 87 12 0 21 Oct 2024
SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation Jaehong Yoon Shoubin Yu Vaidehi Patil Huaxiu Yao Joey Tianyi Zhou 129 23 0 16 Oct 2024
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning Saemi Moon M. Lee Sangdon Park Dongwoo Kim 71 3 0 08 Oct 2024
Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models Yimeng Zhang Xin Chen Jinghan Jia Yihua Zhang Chongyu Fan Jiancheng Liu Mingyi Hong Ke Ding Sijia Liu DiffM 102 67 0 24 May 2024
Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient Yongliang Wu Shiji Zhou Mingzhuo Yang Lianzhe Wang Wenbo Zhu Heng Chang Xiao Zhou Xu Yang Xu Yang 128 21 0 24 May 2024
SOUL: Unlocking the Power of Second-Order Optimization for LLM Unlearning Jinghan Jia Yihua Zhang Yimeng Zhang Jiancheng Liu Bharat Runwal James Diffenderfer B. Kailkhura Sijia Liu MU 113 50 0 28 Apr 2024
Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models Jiachen Ma Anda Cao Zhiqing Xiao Jie Zhang Chaonan Ye Chao Ye Junbo Zhao 92 32 0 02 Apr 2024
Threats, Attacks, and Defenses in Machine Unlearning: A Survey Ziyao Liu Huanyi Ye Chen Chen Yongsen Zheng K. Lam AAML MU 105 32 0 20 Mar 2024
DeepZero: Scaling up Zeroth-Order Optimization for Deep Model Training Aochuan Chen Yimeng Zhang Jinghan Jia James Diffenderfer Jiancheng Liu Konstantinos Parasyris Yihua Zhang Zheng Zhang B. Kailkhura Sijia Liu 112 48 0 03 Oct 2023
Prompting4Debugging: Red-Teaming Text-to-Image Diffusion Models by Finding Problematic Prompts Zhi-Yi Chin Chieh-Ming Jiang Ching-Chun Huang Pin-Yu Chen Wei-Chen Chiu DiffM 62 77 0 12 Sep 2023
Unified Concept Editing in Diffusion Models Rohit Gandikota Hadas Orgad Yonatan Belinkov Joanna Materzyñska David Bau DiffM 101 192 0 25 Aug 2023
Circumventing Concept Erasure Methods For Text-to-Image Generative Models Minh Pham Kelly O. Marshall Niv Cohen Govind Mittal Chinmay Hegde DiffM 63 45 0 03 Aug 2023
Degeneration-Tuning: Using Scrambled Grid shield Unwanted Concepts from Stable Diffusion Zixuan Ni Longhui Wei Jiacheng Li Siliang Tang Yueting Zhuang Qi Tian DiffM 87 22 0 02 Aug 2023
Mitigating Inappropriateness in Image Generation: Can there be Value in Reflecting the World's Ugliness? Manuel Brack Felix Friedrich P. Schramowski Kristian Kersting EGVM 45 14 0 28 May 2023
Robust Classification via a Single Diffusion Model Huanran Chen Yinpeng Dong Zhengyi Wang Xiaohu Yang Chen-Dong Duan Hang Su Jun Zhu 140 60 0 24 May 2023
Selective Amnesia: A Continual Learning Approach to Forgetting in Deep Generative Models Alvin Heng Harold Soh VLM KELM DiffM 80 113 0 17 May 2023
In-Context Learning Unlocked for Diffusion Models Zhendong Wang Yi Ding Yadong Lu Yelong Shen Pengcheng He Weizhu Chen Zhangyang Wang Mingyuan Zhou VLM DiffM 132 78 0 01 May 2023
Model Sparsity Can Simplify Machine Unlearning Jinghan Jia Jiancheng Liu Parikshit Ram Yuguang Yao Gaowen Liu Yang Liu Pranay Sharma Sijia Liu MU 111 128 0 11 Apr 2023
Forget-Me-Not: Learning to Forget in Text-to-Image Diffusion Models Eric Zhang Kai Wang Xingqian Xu Zhangyang Wang Humphrey Shi DiffM 108 193 0 30 Mar 2023
A Pilot Study of Query-Free Adversarial Attack against Stable Diffusion Haomin Zhuang Yihua Zhang Sijia Liu DiffM 68 69 0 29 Mar 2023
Your Diffusion Model is Secretly a Zero-Shot Classifier Alexander C. Li Mihir Prabhudesai Shivam Duggal Ellis L Brown Deepak Pathak DiffM VLM 142 239 0 28 Mar 2023
Ablating Concepts in Text-to-Image Diffusion Models Nupur Kumari Bin Zhang Sheng-Yu Wang Eli Shechtman Richard Y. Zhang Jun-Yan Zhu VLM 67 201 0 23 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.5K 14,748 0 15 Mar 2023
Erasing Concepts from Diffusion Models Rohit Gandikota Joanna Materzyñska Jaden Fiotto-Kaufman David Bau DiffM 98 311 0 13 Mar 2023
Scaling up GANs for Text-to-Image Synthesis Minguk Kang Jun-Yan Zhu Richard Y. Zhang Jaesik Park Eli Shechtman Sylvain Paris Taesung Park 85 479 0 09 Mar 2023
GNNDelete: A General Strategy for Unlearning in Graph Neural Networks Jiali Cheng George Dasoulas Huan He Chirag Agarwal Marinka Zitnik MU 93 38 0 26 Feb 2023
Adding Conditional Control to Text-to-Image Diffusion Models Lvmin Zhang Anyi Rao Maneesh Agrawala AI4CE 182 4,175 1 10 Feb 2023
Black Box Adversarial Prompting for Foundation Models Natalie Maus Patrick Chao Eric Wong Jacob R. Gardner VLM 64 60 0 08 Feb 2023
Hard Prompts Made Easy: Gradient-Based Discrete Optimization for Prompt Tuning and Discovery Yuxin Wen Neel Jain John Kirchenbauer Micah Goldblum Jonas Geiping Tom Goldstein VLM DiffM 91 273 1 07 Feb 2023
GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis Ming Tao Bingkun Bao Hao Tang Changsheng Xu DiffM VLM 101 109 0 30 Jan 2023
TextGrad: Advancing Robustness Evaluation in NLP by Gradient-Driven Optimization Bairu Hou Jinghan Jia Yihua Zhang Guanhua Zhang Yang Zhang Sijia Liu Shiyu Chang SILM AAML 46 23 0 19 Dec 2022
Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models Gowthami Somepalli Vasu Singla Micah Goldblum Jonas Geiping Tom Goldstein 77 330 0 07 Dec 2022
Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models P. Schramowski Manuel Brack Bjorn Deiseroth Kristian Kersting 128 308 0 09 Nov 2022
Character-level White-Box Adversarial Attacks against Transformers via Attachable Subwords Substitution Aiwei Liu Honghai Yu Xuming Hu Shuang Li Li Lin Fukun Ma Yawen Yang Lijie Wen 86 35 0 31 Oct 2022
Imagic: Text-Based Real Image Editing with Diffusion Models Bahjat Kawar Shiran Zada Oran Lang Omer Tov Hui-Tang Chang Tali Dekel Inbar Mosseri Michal Irani 91 1,104 0 17 Oct 2022
LAION-5B: An open large-scale dataset for training next generation image-text models Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman ... Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt R. Kaczmarczyk J. Jitsev VLM MLLM CLIP 200 3,500 0 16 Oct 2022
Red-Teaming the Stable Diffusion Safety Filter Javier Rando Daniel Paleka David Lindner Lennard Heim Florian Tramèr DiffM 186 205 0 03 Oct 2022
Diffusion Models in Vision: A Survey Florinel-Alin Croitoru Vlad Hondru Radu Tudor Ionescu M. Shah DiffM VLM MedIm 327 1,238 0 10 Sep 2022