Title
RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content Zhuowen Yuan Zidi Xiong Yi Zeng Ning Yu Ruoxi Jia D. Song Bo-wen Li AAML KELM 42 38 0 19 Mar 2024
Detectors for Safe and Reliable LLMs: Implementations, Uses, and Limitations Swapnaja Achintalwar Adriana Alvarado Garcia Ateret Anaby-Tavor Ioana Baldini Sara E. Berger ... Aashka Trivedi Kush R. Varshney Dennis L. Wei Shalisha Witherspooon Marcel Zalmanovici 33 10 0 09 Mar 2024
Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models Arijit Ghosh Chowdhury Md. Mofijul Islam Vaibhav Kumar F. H. Shezan Vaibhav Kumar Vinija Jain Aman Chadha AAML PILM 36 29 0 03 Mar 2024
AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks Yifan Zeng Yiran Wu Xiao Zhang Huazheng Wang Qingyun Wu LLMAG AAML 42 59 0 02 Mar 2024
Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue Zhenhong Zhou Jiuyang Xiang Haopeng Chen Quan Liu Zherui Li Sen Su 34 19 0 27 Feb 2024
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts Mikayel Samvelyan Sharath Chandra Raparthy Andrei Lupu Eric Hambro Aram H. Markosyan ... Minqi Jiang Jack Parker-Holder Jakob Foerster Tim Rocktaschel Roberta Raileanu SyDa 80 62 0 26 Feb 2024
ShieldLM: Empowering LLMs as Aligned, Customizable and Explainable Safety Detectors Zhexin Zhang Yida Lu Jingyuan Ma Di Zhang Rui Li ... Hao Sun Lei Sha Zhifang Sui Hongning Wang Minlie Huang 23 26 0 26 Feb 2024
Immunization against harmful fine-tuning attacks Domenic Rosati Jan Wehner Kai Williams Lukasz Bartoszcze Jan Batzner Hassan Sajjad Frank Rudzicz AAML 65 16 0 26 Feb 2024
Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing Jiabao Ji Bairu Hou Alexander Robey George J. Pappas Hamed Hassani Yang Zhang Eric Wong Shiyu Chang AAML 44 39 0 25 Feb 2024
PRP: Propagating Universal Perturbations to Attack Large Language Model Guard-Rails Neal Mangaokar Ashish Hooda Jihye Choi Shreyas Chandrashekaran Kassem Fawaz Somesh Jha Atul Prakash AAML 29 35 0 24 Feb 2024
LLMs Can Defend Themselves Against Jailbreaking in a Practical Manner: A Vision Paper Daoyuan Wu Shuaibao Wang Yang Liu Ning Liu AAML 39 7 0 24 Feb 2024
Fine-Grained Detoxification via Instance-Level Prefixes for Large Language Models Xin Yi Linlin Wang Xiaoling Wang Liang He MoMe 39 1 0 23 Feb 2024
GradSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient Analysis Yueqi Xie Minghong Fang Renjie Pi Neil Zhenqiang Gong 53 21 0 21 Feb 2024
Defending Jailbreak Prompts via In-Context Adversarial Game Yujun Zhou Yufei Han Haomin Zhuang Kehan Guo Zhenwen Liang Hongyan Bao Xiangliang Zhang LLMAG AAML 42 11 0 20 Feb 2024
Emulated Disalignment: Safety Alignment for Large Language Models May Backfire! Zhanhui Zhou Jie Liu Zhichen Dong Jiaheng Liu Chao Yang Wanli Ouyang Yu Qiao 15 17 0 19 Feb 2024
Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space Leo Schwinn David Dobre Sophie Xhonneux Gauthier Gidel Stephan Gunnemann AAML 51 38 0 14 Feb 2024
COLD-Attack: Jailbreaking LLMs with Stealthiness and Controllability Xing-ming Guo Fangxu Yu Huan Zhang Lianhui Qin Bin Hu AAML 117 69 0 13 Feb 2024
Comprehensive Assessment of Jailbreak Attacks Against LLMs Junjie Chu Yugeng Liu Ziqing Yang Xinyue Shen Michael Backes Yang Zhang AAML 37 66 0 08 Feb 2024
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models Lijun Li Bowen Dong Ruohui Wang Xuhao Hu Wangmeng Zuo Dahua Lin Yu Qiao Jing Shao ELM 30 86 0 07 Feb 2024
The World of Generative AI: Deepfakes and Large Language Models Alakananda Mitra S. Mohanty E. Kougianos 25 6 0 06 Feb 2024
HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal Mantas Mazeika Long Phan Xuwang Yin Andy Zou Zifan Wang ... Nathaniel Li Steven Basart Bo Li David A. Forsyth Dan Hendrycks AAML 26 320 0 06 Feb 2024
Prioritizing Safeguarding Over Autonomy: Risks of LLM Agents for Science Xiangru Tang Qiao Jin Kunlun Zhu Tongxin Yuan Yichi Zhang ... Jian Tang Zhuosheng Zhang Arman Cohan Zhiyong Lu Mark B. Gerstein LLMAG ELM 22 40 0 06 Feb 2024
Safety Fine-Tuning at (Almost) No Cost: A Baseline for Vision Large Language Models Yongshuo Zong Ondrej Bohdal Tingyang Yu Yongxin Yang Timothy M. Hospedales VLM MLLM 57 57 0 03 Feb 2024
Building Guardrails for Large Language Models Yizhen Dong Ronghui Mu Gao Jin Yi Qi Jinwei Hu Xingyu Zhao Jie Meng Wenjie Ruan Xiaowei Huang OffRL 61 27 0 02 Feb 2024
Weak-to-Strong Jailbreaking on Large Language Models Xuandong Zhao Xianjun Yang Tianyu Pang Chao Du Lei Li Yu-Xiang Wang William Yang Wang 34 54 0 30 Jan 2024
Security and Privacy Challenges of Large Language Models: A Survey B. Das M. H. Amini Yanzhao Wu PILM ELM 19 103 0 30 Jan 2024
PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety Zaibin Zhang Yongting Zhang Lijun Li Hongzhi Gao Lijun Wang Huchuan Lu Feng Zhao Yu Qiao Jing Shao LLMAG 22 30 0 22 Jan 2024
R-Judge: Benchmarking Safety Risk Awareness for LLM Agents Tongxin Yuan Zhiwei He Lingzhong Dong Yiming Wang Ruijie Zhao ... Binglin Zhou Fangqi Li Zhuosheng Zhang Rui Wang Gongshen Liu ELM 34 61 0 18 Jan 2024
Crowdsourced Adaptive Surveys Yamil Velez 14 1 0 16 Jan 2024
Malla: Demystifying Real-world Large Language Model Integrated Malicious Services Zilong Lin Jian Cui Xiaojing Liao Xiaofeng Wang 27 19 0 06 Jan 2024
Bypassing the Safety Training of Open-Source LLMs with Priming Attacks Jason Vega Isha Chaudhary Changming Xu Gagandeep Singh AAML 24 19 0 19 Dec 2023
Tree of Attacks: Jailbreaking Black-Box LLMs Automatically Anay Mehrotra Manolis Zampetakis Paul Kassianik Blaine Nelson Hyrum Anderson Yaron Singer Amin Karbasi 30 204 0 04 Dec 2023
MART: Improving LLM Safety with Multi-round Automatic Red-Teaming Suyu Ge Chunting Zhou Rui Hou Madian Khabsa Yi-Chia Wang Qifan Wang Jiawei Han Yuning Mao AAML LRM 24 93 0 13 Nov 2023
Jailbreaking Black Box Large Language Models in Twenty Queries Patrick Chao Alexander Robey Yan Sun Hamed Hassani George J. Pappas Eric Wong AAML 59 572 0 12 Oct 2023
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks Alexander Robey Eric Wong Hamed Hassani George J. Pappas AAML 43 215 0 05 Oct 2023
Unlocking Bias Detection: Leveraging Transformer-Based Models for Content Analysis Shaina Raza Oluwanifemi Bamgbose Veronica Chatrath Shardul Ghuge Yan Sidyakin Abdullah Y. Muaad 16 11 0 30 Sep 2023
SafetyBench: Evaluating the Safety of Large Language Models Zhexin Zhang Leqi Lei Lindong Wu Rui Sun Yongkang Huang Chong Long Xiao Liu Xuanyu Lei Jie Tang Minlie Huang LRM LM&MA ELM 42 90 0 13 Sep 2023
Helping the Helper: Supporting Peer Counselors via AI-Empowered Practice and Feedback Shang-ling Hsu Raj Sanjay Shah Prathik Senthil Zahra Ashktorab Casey Dugan Werner Geyer Diyi Yang 49 20 0 15 May 2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 389 8,495 0 28 Jan 2022