Erasing Concepts, Steering Generations: A Comprehensive Survey of Concept Suppression

26 May 2025

Papers citing "Erasing Concepts, Steering Generations: A Comprehensive Survey of Concept Suppression"

50 / 93 papers shown

Title
Responsible Diffusion Models via Constraining Text Embeddings within Safe Regions Zhiwen Li Die Chen Mingyuan Fan Cen Chen Yaliang Li Yanhao Wang Wenmeng Zhou DiffM 58 2 0 21 May 2025
Set You Straight: Auto-Steering Denoising Trajectories to Sidestep Unwanted Concepts Leyang Li Shilin Lu Yan Ren A. Kong DiffM 80 4 0 17 Apr 2025
ACE: Attentional Concept Erasure in Diffusion Models Finn Carter DiffM 81 1 0 16 Apr 2025
Fine-Grained Erasure in Text-to-Image Diffusion-based Foundation Models K. Thakral Tamar Glaser Tal Hassner Mayank Vatsa Richa Singh 80 3 0 25 Mar 2025
Safe and Reliable Diffusion Models via Subspace Projection Huiqiang Chen Tianqing Zhu Linlin Wang Xin Yu Longxiang Gao Wanlei Zhou DiffM 68 4 0 21 Mar 2025
Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization Feifei Li Mi Zhang Yiming Sun Min Yang DiffM 68 2 0 19 Mar 2025
CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models Yuyang Xue Edward Moroshko Feng Chen Jingyu Sun Steven McDonagh Sotirios A. Tsaftaris 74 2 0 18 Mar 2025
Efficient Fine-Tuning and Concept Suppression for Pruned Diffusion Models Reza Shirkavand Peiran Yu Shangqian Gao Gowthami Somepalli Tom Goldstein Heng-Chiao Huang 161 2 0 13 Mar 2025
Sparse Autoencoder as a Zero-Shot Classifier for Concept Erasing in Text-to-Image Diffusion Models Zhihua Tian Sirun Nan Ming Xu Shengfang Zhai Wenjie Qu Enchao Gong Kui Ren Ruoxi Jia Jiaheng Zhang DiffM 106 2 0 12 Mar 2025
CASteer: Steering Diffusion Models for Controllable Generation T. Gaintseva Chengcheng Ma Ziquan Liu Martin Benning Gregory Slabaugh Jiankang Deng Ismail Elezi LLMSV DiffM 63 3 0 11 Mar 2025
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models Ruidong Chen Honglin Guo Lanjun Wang Chenyu Zhang Weizhi Nie An-an Liu DiffM 73 2 0 10 Mar 2025
SPEED: Scalable, Precise, and Efficient Concept Erasure for Diffusion Models Ouxiang Li Yuan Wang Xinting Hu Houcheng Jiang Tao Liang Y. Hao Guojun Ma Fuli Feng DiffM 61 2 0 10 Mar 2025
Data Unlearning in Diffusion Models Silas Alberti Kenan Hasanaliyev Manav Shah Stefano Ermon DiffM MU 47 3 0 02 Mar 2025
SafeText: Safe Text-to-image Models via Aligning the Text Encoder Yuepeng Hu Zhengyuan Jiang Neil Zhenqiang Gong 83 4 0 28 Feb 2025
Unified Prompt Attack Against Text-to-Image Generation Models Duo Peng Qiuhong Ke Mark He Huang Ping Hu Jing Liu 69 1 0 23 Feb 2025
Concept Corrector: Erase concepts on the fly for text-to-image diffusion models Zheling Meng Bo Peng Xiaochuan Jin Yueming Lyu Wei Wang Jing Dong Tieniu Tan DiffM 68 3 0 22 Feb 2025
T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation Lijun Li Zhelun Shi Xuhao Hu Bowen Dong Yiran Qin Xihui Liu Lu Sheng Jing Shao 133 2 0 21 Feb 2025
Robust Concept Erasure Using Task Vectors Minh Pham Kelly O. Marshall Chinmay Hegde Niv Cohen 165 20 0 21 Feb 2025
A Comprehensive Survey on Concept Erasure in Text-to-Image Diffusion Models Changhoon Kim Yanjun Qi DiffM 93 4 0 17 Feb 2025
Concept Steerers: Leveraging K-Sparse Autoencoders for Controllable Generations Dahye Kim Deepti Ghadiyaram LLMSV DiffM 79 7 0 31 Jan 2025
Distorting Embedding Space for Safety: A Defense Mechanism for Adversarially Robust Diffusion Models Jaesin Ahn Heechul Jung DiffM 113 2 0 31 Jan 2025
SAeUron: Interpretable Concept Unlearning in Diffusion Models with Sparse Autoencoders Bartosz Cywiński Kamil Deja DiffM 103 8 0 29 Jan 2025
CE-SDWV: Effective and Efficient Concept Erasure for Text-to-Image Diffusion Models via a Semantic-Driven Word Vocabulary Jiahang Tu Qian Feng Chufan Chen Jiahua Dong Hanbin Zhao Chao Zhang Hui Qian 90 4 0 28 Jan 2025
EraseBench: Understanding The Ripple Effects of Concept Erasure Techniques Ibtihel Amara Ahmed Imtiaz Humayun Ivana Kajić Zarana Parekh Natalie Harris ... Deepak Ramachandran G. Farnadi Katherine Heller Mohammad Havaei Negar Rostamzadeh 44 3 0 20 Jan 2025
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models Yong-Hyun Park Sangdoo Yun Jin-Hwa Kim Junho Kim Geonhui Jang Yonghyun Jeong Junghyo Jo Gayoung Lee 120 16 0 17 Jan 2025
ACE: Anti-Editing Concept Erasure in Text-to-Image Models Zihao Wang Yuxiang Wei Fan Li Renjing Pei Hang Xu Wangmeng Zuo KELM 51 3 0 03 Jan 2025
AdvAnchor: Enhancing Diffusion Model Unlearning with Adversarial Anchors Mengnan Zhao Lulu Zhang Xingyi Yang Tianhang Zheng Baocai Yin DiffM 58 2 0 03 Jan 2025
DuMo: Dual Encoder Modulation Network for Precise Concept Erasure Feng Han Kai-xiang Chen Chao Gong Zhipeng Wei Jingjing Chen Yu-Gang Jiang 74 3 0 03 Jan 2025
SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation Runtao Liu Chen I Chieh Jindong Gu Jipeng Zhang Renjie Pi Qifeng Chen Philip Torr Ashkan Khakzar Fabio Pizzati EGVM 131 2 0 13 Dec 2024
Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization Jiangweizhi Peng Zhiwei Tang Gaowen Liu Charles Fleming Mingyi Hong 110 3 0 05 Dec 2024
Continuous Concepts Removal in Text-to-image Diffusion Models Tingxu Han Weisong Sun Yanrong Hu Chunrong Fang Yonglong Zhang Shiqing Ma Tao Zheng Zhenyu Chen Zhenting Wang DiffM 166 3 0 30 Nov 2024
MUNBa: Machine Unlearning via Nash Bargaining Jing Wu Mehrtash Harandi MU 104 5 0 23 Nov 2024
CopyrightMeter: Revisiting Copyright Protection in Text-to-image Models Naen Xu Changjiang Li Tianyu Du Minxi Li Wenjie Luo ... Yuyuan Li Xuhong Zhang Meng Han Yuxiang Cai Ting Wang 89 2 0 20 Nov 2024
Erasing Undesirable Concepts in Diffusion Models with Adversarial Preservation Anh-Vu Bui L. Vuong Khanh Doan Trung Le Paul Montague Tamas Abraham Dinh Q. Phung KELM DiffM 66 12 0 21 Oct 2024
Meta-Unlearning on Diffusion Models: Preventing Relearning Unlearned Concepts Hongcheng Gao Tianyu Pang Chao Du Taihang Hu Zhijie Deng Min Lin DiffM 83 11 0 16 Oct 2024
RealEra: Semantic-level Concept Erasure via Neighbor-Concept Mining Yufan Liu Jinyang An Wanqian Zhang Ming Li Dayan Wu Jingzi Gu Zheng Lin Weiping Wang 47 5 0 11 Oct 2024
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning Saemi Moon M. Lee Sangdon Park Dongwoo Kim 56 2 0 08 Oct 2024
SteerDiff: Steering towards Safe Text-to-Image Diffusion Models Hongxiang Zhang Yifeng He Hao Chen 65 4 0 03 Oct 2024
Prompt Sliders for Fine-Grained Control, Editing and Erasing of Concepts in Diffusion Models Deepak Sridhar Nuno Vasconcelos DiffM 53 2 0 25 Sep 2024
Score Forgetting Distillation: A Swift, Data-Free Method for Machine Unlearning in Diffusion Models Tianqi Chen Shujian Zhang Mingyuan Zhou DiffM 122 5 0 17 Sep 2024
Reliable and Efficient Concept Erasure of Text-to-Image Diffusion Models Chao Gong Kai-xiang Chen Zhipeng Wei Jingjing Chen Yulong Jiang DiffM 97 35 0 17 Jul 2024
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models Jie Ren Kangrui Chen Yingqian Cui Shenglai Zeng Hui Liu Yue Xing Jiliang Tang Lingjuan Lyu 79 2 0 21 Jun 2024
ConceptPrune: Concept Editing in Diffusion Models via Skilled Neuron Pruning Ruchika Chavhan Da Li Timothy M. Hospedales 54 16 0 29 May 2024
Pruning for Robust Concept Erasing in Diffusion Models Tianyun Yang Juan Cao Chang Xu 66 14 0 26 May 2024
R.A.C.E.: Robust Adversarial Concept Erasure for Secure Text-to-Image Diffusion Model Changhoon Kim Kyle Min Yezhou Yang 59 25 0 25 May 2024
Defensive Unlearning with Adversarial Training for Robust Concept Erasure in Diffusion Models Yimeng Zhang Xin Chen Jinghan Jia Yihua Zhang Chongyu Fan Jiancheng Liu Mingyi Hong Ke Ding Sijia Liu DiffM 86 61 0 24 May 2024
Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient Yongliang Wu Shiji Zhou Mingzhuo Yang Lianzhe Wang Wenbo Zhu Heng Chang Xiao Zhou Xu Yang Xu Yang 101 21 0 24 May 2024
Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning Masane Fuchi Tomohiro Takagi DiffM VLM 85 15 0 12 May 2024
Espresso: Robust Concept Filtering in Text-to-Image Models Anudeep Das Vasisht Duddu Rui Zhang Nadarajah Asokan EGVM 54 9 0 30 Apr 2024
Latent Guard: a Safety Framework for Text-to-image Generation Runtao Liu Ashkan Khakzar Jindong Gu Qifeng Chen Philip Torr Fabio Pizzati 74 29 0 11 Apr 2024