Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs

Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs

16 February 2025

Papers citing "Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs"

16 / 16 papers shown

Title
CausalTAD: Causal Implicit Generative Model for Debiased Online Trajectory Anomaly Detection Wenbin Li Di Yao Chang Gong Xiaokai Chu Quanliang Jing Xiaolei Zhou Yuxuan Zhang Yunxia Fan Jingping Bi CML 53 3 0 25 Dec 2024
Provable Uncertainty Decomposition via Higher-Order Calibration Gustaf Ahdritz Aravind Gollakota Parikshit Gopalan Charlotte Peale Udi Wieder UD UQCV PER 77 0 0 25 Dec 2024
Medchain: Bridging the Gap Between LLM Agents and Clinical Practice through Interactive Sequential Benchmarking Jie Liu Wenxuan Wang Zizhan Ma Guolin Huang Yihang Su Kao-Jung Chang Wenting Chen Haoliang Li Linlin Shen Michael R. Lyu 93 7 0 02 Dec 2024
Chain-of-Jailbreak Attack for Image Generation Models via Editing Step by Step Wenxuan Wang Kuiyi Gao Zihan Jia Youliang Yuan Jen-tse Huang S. Wang Wenxiang Jiao Zhaopeng Tu 322 2 0 04 Oct 2024
Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach Yuxuan Wan Chaozheng Wang Yi Dong Wenxuan Wang Shuqing Li Yintong Huo Michael R. Lyu 3DV 83 10 0 24 Jun 2024
MOSSBench: Is Your Multimodal Language Model Oversensitive to Safe Queries? Xirui Li Hengguang Zhou Ruochen Wang Tianyi Zhou Minhao Cheng Cho-Jui Hsieh 42 7 0 22 Jun 2024
New Job, New Gender? Measuring the Social Bias in Image Generation Models Wenxuan Wang Haonan Bai Jen-tse Huang Yuxuan Wan Youliang Yuan Haoyi Qiu Nanyun Peng Michael R. Lyu 61 21 0 01 Jan 2024
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding Sicong Leng Hang Zhang Guanzheng Chen Xin Li Shijian Lu Chunyan Miao Li Bing VLM MLLM 122 217 0 28 Nov 2023
Multimodal ChatGPT for Medical Applications: an Experimental Study of GPT-4V Zhiling Yan Kai Zhang Rong Zhou Lifang He Xiang Li Lichao Sun LM&MA 44 50 0 29 Oct 2023
BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset Jiaming Ji Mickel Liu Juntao Dai Xuehai Pan Chi Zhang Ce Bian Chi Zhang Ruiyang Sun Yizhou Wang Yaodong Yang ALM 64 460 0 10 Jul 2023
SafeText: A Benchmark for Exploring Physical Safety in Language Models Sharon Levy Emily Allaway Melanie Subbiah Lydia B. Chilton D. Patton Kathleen McKeown William Yang Wang 69 42 0 18 Oct 2022
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback Yuntao Bai Andy Jones Kamal Ndousse Amanda Askell Anna Chen ... Jack Clark Sam McCandlish C. Olah Benjamin Mann Jared Kaplan 207 2,457 0 12 Apr 2022
ToxiGen: A Large-Scale Machine-Generated Dataset for Adversarial and Implicit Hate Speech Detection Thomas Hartvigsen Saadia Gabriel Hamid Palangi Maarten Sap Dipankar Ray Ece Kamar 42 362 0 17 Mar 2022
BOLD: Dataset and Metrics for Measuring Biases in Open-Ended Language Generation Jwala Dhamala Tony Sun Varun Kumar Satyapriya Krishna Yada Pruksachatkun Kai-Wei Chang Rahul Gupta 55 384 0 27 Jan 2021
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes Douwe Kiela Hamed Firooz Aravind Mohan Vedanuj Goswami Amanpreet Singh Pratik Ringshia Davide Testuggine 65 601 0 10 May 2020
Automated Hate Speech Detection and the Problem of Offensive Language Thomas Davidson Dana Warmsley M. Macy Ingmar Weber 56 2,666 0 11 Mar 2017