Can Machines Help Us Answering Question 16 in Datasheets, and In Turn Reflecting on Inappropriate Content?

14 February 2022

P. Schramowski

Christopher Tauchmann

Kristian Kersting

FaML

ArXiv PDF HTML

Papers citing "Can Machines Help Us Answering Question 16 in Datasheets, and In Turn Reflecting on Inappropriate Content?"

50 / 68 papers shown

Title
Towards SFW sampling for diffusion models via external conditioning Camilo Carvajal Reyes J. Fontbona Felipe A. Tobar DiffM 36 0 0 12 May 2025
Jailbreaking the Text-to-Video Generative Models Jiayang Liu Siyuan Liang Shiqian Zhao Rongcheng Tu Wenbo Zhou Xiaochun Cao D. Tao Siew Kei Lam EGVM VGen 49 0 0 10 May 2025
Towards Safe Synthetic Image Generation On the Web: A Multimodal Robust NSFW Defense and Million Scale Dataset Muhammad Shahid Muneer Simon Woo DiffM 31 0 0 16 Apr 2025
Token-Level Constraint Boundary Search for Jailbreaking Text-to-Image Models Jiaheng Liu Zhaoxin Wang Handing Wang Cong Tian Yaochu Jin 26 0 0 15 Apr 2025
Detect-and-Guide: Self-regulation of Diffusion Models for Safe Text-to-Image Generation via Guideline Token Optimization Feifei Li Mi Zhang Yiming Sun Min Yang DiffM 59 1 0 19 Mar 2025
Hyperbolic Safety-Aware Vision-Language Models Tobia Poppi Tejaswi Kasarla Pascal Mettes Lorenzo Baraldi Rita Cucchiara VLM MU 61 0 0 15 Mar 2025
Safe Vision-Language Models via Unsafe Weights Manipulation Moreno DÍncà E. Peruzzo Xingqian Xu Humphrey Shi N. Sebe Massimiliano Mancini MU 57 0 0 14 Mar 2025
Controlling Latent Diffusion Using Latent CLIP Jason Becker Chris Wendler Peter Baylies Robert West Christian Wressnegger DiffM VLM 68 0 0 11 Mar 2025
TRCE: Towards Reliable Malicious Concept Erasure in Text-to-Image Diffusion Models Ruidong Chen Honglin Guo Lanjun Wang Chenyu Zhang Weizhi Nie An-an Liu DiffM 66 1 0 10 Mar 2025
Concept Corrector: Erase concepts on the fly for text-to-image diffusion models Zheling Meng Bo Peng Xiaochuan Jin Yueming Lyu Wei Wang Jing Dong DiffM 48 2 0 22 Feb 2025
T2ISafety: Benchmark for Assessing Fairness, Toxicity, and Privacy in Image Generation Lijun Li Zhelun Shi Xuhao Hu Bowen Dong Yiran Qin Xihui Liu Lu Sheng Jing Shao 114 1 0 21 Feb 2025
DiffGuard: Text-Based Safety Checker for Diffusion Models Massine El Khader Elias Al Bouzidi Abdellah Oumida Mohammed Sbaihi Eliott Binard Jean-Philippe Poli Wassila Ouerdane Boussad Addad Katarzyna Kapusta DiffM 116 0 0 20 Feb 2025
Direct Unlearning Optimization for Robust and Safe Text-to-Image Models Yong-Hyun Park Sangdoo Yun Jin-Hwa Kim Junho Kim Geonhui Jang Yonghyun Jeong Junghyo Jo Gayoung Lee 76 14 0 17 Jan 2025
MLLM-as-a-Judge for Image Safety without Human Labeling Zhenting Wang Shuming Hu Shiyu Zhao Xiaowen Lin F. Xu ... Nan Jiang Lingjuan Lyu Shiqing Ma Dimitris N. Metaxas Ankit Jain 182 2 0 31 Dec 2024
SafetyDPO: Scalable Safety Alignment for Text-to-Image Generation Runtao Liu Chen I Chieh Jindong Gu Jipeng Zhang Renjie Pi Qifeng Chen Philip Torr Ashkan Khakzar Fabio Pizzati EGVM 109 0 0 13 Dec 2024
Buster: Implanting Semantic Backdoor into Text Encoder to Mitigate NSFW Content Generation Xin Zhao Xiaojun Chen Yuexin Xuan Zhendong Zhao Xiaojun Jia Xinfeng Li Xiaofeng Wang 77 0 0 10 Dec 2024
Safeguarding Text-to-Image Generation via Inference-Time Prompt-Noise Optimization Jiangweizhi Peng Zhiwei Tang Gaowen Liu Charles Fleming Mingyi Hong 79 2 0 05 Dec 2024
In-Context Experience Replay Facilitates Safety Red-Teaming of Text-to-Image Diffusion Models Zhi-Yi Chin Kuan-Chen Mu Mario Fritz Pin-Yu Chen DiffM 87 0 0 25 Nov 2024
Safety Without Semantic Disruptions: Editing-free Safe Image Generation via Context-preserving Dual Latent Reconstruction J. Vice Naveed Akhtar Richard I. Hartley Ajmal Mian Ajmal Mian DiffM 89 0 0 21 Nov 2024
Jailbreak Attacks and Defenses against Multimodal Generative Models: A Survey Xuannan Liu Xing Cui Peipei Li Zekun Li Huaibo Huang Shuhan Xia Miaoxuan Zhang Yueying Zou Ran He AAML 67 8 0 14 Nov 2024
AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models Yaopei Zeng Yuanpu Cao Bochuan Cao Yurui Chang Jinghui Chen Lu Lin DiffM 36 3 0 28 Oct 2024
Holistic Unlearning Benchmark: A Multi-Faceted Evaluation for Text-to-Image Diffusion Model Unlearning Saemi Moon M. Lee Sangdon Park Dongwoo Kim 44 1 0 08 Oct 2024
SteerDiff: Steering towards Safe Text-to-Image Diffusion Models Hongxiang Zhang Yifeng He Hao Chen 28 3 0 03 Oct 2024
T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition Chen Yeh You-Ming Chang Wei-Chen Chiu Ning Yu 43 1 0 29 Sep 2024
Multimodal Pragmatic Jailbreak on Text-to-image Models Tong Liu Zhixin Lai Gengyuan Zhang Philip Torr Vera Demberg Volker Tresp Jindong Gu 40 4 0 27 Sep 2024
Dark Miner: Defend against unsafe generation for text-to-image diffusion models Zheling Meng Bo Peng Xiaochuan Jin Yue Jiang Jing Dong Wei Wang Tieniu Tan DiffM 33 1 0 26 Sep 2024
Data-Centric AI Governance: Addressing the Limitations of Model-Focused Policies Ritwik Gupta Leah Walker Rodolfo Corona Stephanie Fu Suzanne Petryk Janet Napolitano Trevor Darrell Andrew W. Reddie ELM 43 3 0 25 Sep 2024
Image-Perfect Imperfections: Safety, Bias, and Authenticity in the Shadow of Text-To-Image Model Evolution Yixin Wu Yun Shen Michael Backes Yang Zhang 42 1 0 30 Aug 2024
DiffZOO: A Purely Query-Based Black-Box Attack for Red-teaming Text-to-Image Generative Model via Zeroth Order Optimization Pucheng Dang Xing Hu Dong Li Rui Zhang Qi Guo Kaidi Xu DiffM 36 5 0 18 Aug 2024
Data Processing Techniques for Modern Multimodal Models Yinheng Li Han Ding Hang Chen VLM 36 0 0 27 Jul 2024
LlavaGuard: An Open VLM-based Framework for Safeguarding Vision Datasets and Models Lukas Helff Felix Friedrich Manuel Brack Kristian Kersting P. Schramowski VLM 48 0 0 07 Jun 2024
ART: Automatic Red-teaming for Text-to-Image Models to Protect Benign Users Guanlin Li Kangjie Chen Shudong Zhang Jie Zhang Tianwei Zhang EGVM 49 11 0 24 May 2024
UnsafeBench: Benchmarking Image Safety Classifiers on Real-World and AI-Generated Images Y. Qu Xinyue Shen Yixin Wu Michael Backes Savvas Zannettou Yang Zhang EGVM 40 12 0 06 May 2024
Latent Guard: a Safety Framework for Text-to-image Generation Runtao Liu Ashkan Khakzar Jindong Gu Qifeng Chen Philip Torr Fabio Pizzati 31 24 0 11 Apr 2024
Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models Jiachen Ma Anda Cao Zhiqing Xiao Jie Zhang Chaonan Ye Junbo Zhao 24 29 0 02 Apr 2024
Universal Prompt Optimizer for Safe Text-to-Image Generation Zongyu Wu Hongcheng Gao Yueze Wang Xiang Zhang Suhang Wang EGVM 18 9 0 16 Feb 2024
Breaking Free: How to Hack Safety Guardrails in Black-Box Diffusion Models! Shashank Kotyan Poyuan Mao Pin-Yu Chen Danilo Vasconcellos Vargas AAML DiffM 43 0 0 07 Feb 2024
SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training? Hasan Hammoud Hani Itani Fabio Pizzati Philip Torr Adel Bibi Guohao Li CLIP VLM 120 36 0 02 Feb 2024
EraseDiff: Erasing Data Influence in Diffusion Models Jing Wu Trung Le Munawar Hayat Mehrtash Harandi DiffM 69 14 0 11 Jan 2024
Scissorhands: Scrub Data Influence via Connection Sensitivity in Networks Jing Wu Mehrtash Harandi 31 14 0 11 Jan 2024
Receler: Reliable Concept Erasing of Text-to-Image Diffusion Models via Lightweight Erasers Chi-Pin Huang Kai-Po Chang Chung-Ting Tsai Yung-Hsuan Lai Fu-En Yang Yu-Chiang Frank Wang DiffM 13 48 0 29 Nov 2023
MMA-Diffusion: MultiModal Attack on Diffusion Models Yijun Yang Ruiyuan Gao Xiaosen Wang Tsung-Yi Ho Nan Xu Qiang Xu 27 62 0 29 Nov 2023
Self-Discovering Interpretable Diffusion Latent Directions for Responsible Text-to-Image Generation Hang Li Chengzhi Shen Philip Torr Volker Tresp Jindong Gu 32 32 0 28 Nov 2023
Safe-CLIP: Removing NSFW Concepts from Vision-and-Language Models Samuele Poppi Tobia Poppi Federico Cocchi Marcella Cornia Lorenzo Baraldi Rita Cucchiara VLM 27 8 0 27 Nov 2023
To Generate or Not? Safety-Driven Unlearned Diffusion Models Are Still Easy To Generate Unsafe Images ... For Now Yimeng Zhang Jinghan Jia Xin Chen Aochuan Chen Yihua Zhang Jiancheng Liu Ke Ding Sijia Liu DiffM 22 82 0 18 Oct 2023
Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? Yu-Lin Tsai Chia-Yi Hsu Chulin Xie Chih-Hsun Lin Jia-You Chen Bo-wen Li Pin-Yu Chen Chia-Mu Yu Chun-ying Huang DiffM 39 77 0 16 Oct 2023
Implicit Concept Removal of Diffusion Models Zhili Liu Kai Chen Yifan Zhang Jianhua Han Lanqing Hong Hang Xu Zhenguo Li Dit-Yan Yeung James T. Kwok 23 13 0 09 Oct 2023
SurrogatePrompt: Bypassing the Safety Filter of Text-To-Image Models via Substitution Zhongjie Ba Jieming Zhong Jiachen Lei Pengyu Cheng Qinglong Wang Zhan Qin Zhibo Wang Kui Ren 18 17 0 25 Sep 2023
Distilling Adversarial Prompts from Safety Benchmarks: Report for the Adversarial Nibbler Challenge Manuel Brack P. Schramowski Kristian Kersting AAML EGVM 29 7 0 20 Sep 2023
DiffusionWorldViewer: Exposing and Broadening the Worldview Reflected by Generative Text-to-Image Models Zoe De Simone Angie Boggust Arvindmani Satyanarayan Ashia Wilson 36 1 0 18 Sep 2023