Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models?

16 October 2023

Chulin Xie

Papers citing "Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models?"

50 / 62 papers shown

Title
CURE: Concept Unlearning via Orthogonal Representation Editing in Diffusion Models Shristi Das Biswas Arani Roy Kaushik Roy DiffM 7 0 0 19 May 2025
Verifying Robust Unlearning: Probing Residual Knowledge in Unlearned Models Hao Xuan Xingyu Li AAML MU 48 0 0 21 Apr 2025
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts Leyang Li Shilin Lu Yan Ren A. Kong DiffM 46 1 0 17 Apr 2025
Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models Jiaheng Liu Zhaoxin Wang Handing Wang Cong Tian Yaochu Jin 26 0 0 15 Apr 2025
Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models K. Thakral Tamar Glaser Tal Hassner Mayank Vatsa Richa Singh 52 2 0 25 Mar 2025
Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization Feifei Li Mi Zhang Yiming Sun Min Yang DiffM 56 1 0 19 Mar 2025
Safe Vision-Language Models via Unsafe Weights Manipulation Moreno DÍncà E. Peruzzo Xingqian Xu Humphrey Shi N. Sebe Massimiliano Mancini MU 55 0 0 14 Mar 2025
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models Ruidong Chen Honglin Guo Lanjun Wang Chenyu Zhang Weizhi Nie An-an Liu DiffM 66 1 0 10 Mar 2025
Jailbreaking Safeguarded Text-to-Image Models via Large Language Models Zhengyuan Jiang Yuepeng Hu Yi Yang Yinzhi Cao Neil Gong 72 0 0 03 Mar 2025
SafeText: Safe Text-to-image Models via Aligning the Text Encoder Yuepeng Hu Zhengyuan Jiang Neil Zhenqiang Gong 66 1 0 28 Feb 2025
On the Vulnerability of Concept Erasure in Diffusion Models Lucas Beerens Alex D. Richardson Peng Sun Dongdong Chen DiffM 65 2 0 24 Feb 2025
Concept Corrector: Erase concepts on the fly for text-to-image diffusion models Zheling Meng Bo Peng Xiaochuan Jin Yueming Lyu Wei Wang Jing Dong DiffM 48 2 0 22 Feb 2025
Robust Concept Erasure Using Task Vectors Minh Pham Kelly O. Marshall Chinmay Hegde Niv Cohen 123 17 0 21 Feb 2025
A Comprehensive Survey on Concept Erasure in Text-to-Image Diffusion Models Changhoon Kim Yanjun Qi DiffM 45 1 0 17 Feb 2025
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models Yong-Hyun Park Sangdoo Yun Jin-Hwa Kim Junho Kim Geonhui Jang Yonghyun Jeong Junghyo Jo Gayoung Lee 76 13 0 17 Jan 2025
MLLM-as-a-Judge for Image Safety without Human Labeling Zhenting Wang Shuming Hu Shiyu Zhao Xiaowen Lin F. Xu ... Nan Jiang Lingjuan Lyu Shiqing Ma Dimitris N. Metaxas Ankit Jain 164 2 0 31 Dec 2024
IntroStyle: Training-Free Introspective Style Attribution using Diffusion Features Anand Kumar Jiteng Mu Nuno Vasconcelos DiffM 88 0 0 19 Dec 2024
SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation Runtao Liu Chen I Chieh Jindong Gu Jipeng Zhang Renjie Pi Qifeng Chen Philip Torr Ashkan Khakzar Fabio Pizzati EGVM 109 0 0 13 Dec 2024
Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization Jiangweizhi Peng Zhiwei Tang Gaowen Liu Charles Fleming Mingyi Hong 79 2 0 05 Dec 2024
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models Zhi-Yi Chin Kuan-Chen Mu Mario Fritz Pin-Yu Chen DiffM 87 0 0 25 Nov 2024
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey Xuannan Liu Xing Cui Peipei Li Zekun Li Huaibo Huang Shuhan Xia Miaoxuan Zhang Yueying Zou Ran He AAML 67 8 0 14 Nov 2024
AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models Yaopei Zeng Yuanpu Cao Bochuan Cao Yurui Chang Jinghui Chen Lu Lin DiffM 36 3 0 28 Oct 2024
Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts Hongcheng Gao Tianyu Pang Chao Du Taihang Hu Zhijie Deng Min-Bin Lin DiffM 42 8 0 16 Oct 2024
SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation Jaehong Yoon Shoubin Yu Vaidehi Patil Huaxiu Yao Joey Tianyi Zhou 79 15 0 16 Oct 2024
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning Saemi Moon M. Lee Sangdon Park Dongwoo Kim 44 1 0 08 Oct 2024
SteerDiff: Steering towards Safe Text-to-Image Diffusion Models Hongxiang Zhang Yifeng He Hao Chen 28 2 0 03 Oct 2024
Multimodal Pragmatic Jailbreak on Text-to-image Models Tong Liu Zhixin Lai Gengyuan Zhang Philip Torr Vera Demberg Volker Tresp Jindong Gu 37 4 0 27 Sep 2024
Dark Miner: Defend against unsafe generation for text-to-image diffusion models Zheling Meng Bo Peng Xiaochuan Jin Yue Jiang Jing Dong Wei Wang Tieniu Tan DiffM 33 1 0 26 Sep 2024
Unlearning or Concealment? A Critical Analysis and Evaluation Metrics for Unlearning in Diffusion Models Aakash Sen Sharma Niladri Sarkar Vikram S Chundawat Ankur Mali Murari Mandal DiffM MU 38 4 0 09 Sep 2024
DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization Pucheng Dang Xing Hu Dong Li Rui Zhang Qi Guo Kaidi Xu DiffM 36 5 0 18 Aug 2024
Jailbreaking Text-to-Image Models with LLM-Based Agents Yingkai Dong Zheng Li Xiangtao Meng Ning Yu Shanqing Guo LLMAG 45 13 0 01 Aug 2024
Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models Chao Gong Kai-xiang Chen Zhipeng Wei Jingjing Chen Yulong Jiang DiffM 47 24 0 17 Jul 2024
Adversarial Attacks and Defenses on Text-to-Image Diffusion Models: A Survey Chenyu Zhang Mingwang Hu Wenhui Li Lanjun Wang 41 15 0 10 Jul 2024
T2VSafetyBench: Evaluating the Safety of Text-to-Video Generative Models Yibo Miao Yifan Zhu Yinpeng Dong Lijia Yu Jun Zhu Xiao-Shan Gao EGVM 43 12 0 08 Jul 2024
Replication in Visual Diffusion Models: A Survey and Outlook Wenhao Wang Yifan Sun Zongxin Yang Zhengdong Hu Zhentao Tan Yi Yang 86 7 0 07 Jul 2024
MU-Bench: A Multitask Multimodal Benchmark for Machine Unlearning Jiali Cheng Hadi Amiri BDL 43 3 0 21 Jun 2024
RIGID: A Training-free and Model-Agnostic Framework for Robust AI-Generated Image Detection Zhiyuan He Pin-Yu Chen Tsung-Yi Ho 44 12 0 30 May 2024
ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning Ruchika Chavhan Da Li Timothy M. Hospedales 44 15 0 29 May 2024
Anonymization Prompt Learning for Facial Privacy-Preserving Text-to-Image Generation Liang Shi Jie Zhang Shiguang Shan PICV DiffM 48 1 0 27 May 2024
R.A.C.E.: Robust Adversarial Concept Erasure for Secure Text-to-Image Diffusion Model Changhoon Kim Kyle Min Yezhou Yang 42 20 0 25 May 2024
Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models Yimeng Zhang Xin Chen Jinghan Jia Yihua Zhang Chongyu Fan Jiancheng Liu Mingyi Hong Ke Ding Sijia Liu DiffM 38 52 0 24 May 2024
UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images Y. Qu Xinyue Shen Yixin Wu Michael Backes Savvas Zannettou Yang Zhang EGVM 40 12 0 06 May 2024
Probing Unlearned Diffusion Models: A Transferable Adversarial Attack Perspective Xiaoxuan Han Songlin Yang Wei Wang Yang Li Jing Dong DiffM AAML 40 5 0 30 Apr 2024
Espresso: Robust Concept Filtering in Text-to-Image Models Anudeep Das Vasisht Duddu Rui Zhang Nadarajah Asokan EGVM 31 6 0 30 Apr 2024
U Can't Gen This? A Survey of Intellectual Property Protection Methods for Data in Generative AI Tanja Sarcevic Alicja Karlowicz Rudolf Mayer Ricardo A. Baeza-Yates Andreas Rauber 49 6 0 22 Apr 2024
Concept Arithmetics for Circumventing Concept Inhibition in Diffusion Models Vitali Petsiuk Kate Saenko VGen 37 4 0 21 Apr 2024
Latent Guard: a Safety Framework for Text-to-image Generation Runtao Liu Ashkan Khakzar Jindong Gu Qifeng Chen Philip Torr Fabio Pizzati 31 24 0 11 Apr 2024
Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models Jiachen Ma Anda Cao Zhiqing Xiao Jie Zhang Chaonan Ye Junbo Zhao 24 29 0 02 Apr 2024
GuardT2I: Defending Text-to-Image Models from Adversarial Prompts Yijun Yang Ruiyuan Gao Xiao Yang Qiang Xu Qiang Xu 32 15 0 03 Mar 2024
UnlearnCanvas: Stylized Image Dataset for Enhanced Machine Unlearning Evaluation in Diffusion Models Yihua Zhang Chongyu Fan Yimeng Zhang Yuguang Yao Jinghan Jia ... Gaoyuan Zhang Gaowen Liu Ramana Rao Kompella Xiaoming Liu Sijia Liu DiffM 45 5 0 19 Feb 2024