Title
New Emerged Security and Privacy of Pre-trained Model: a Survey and Outlook Meng Yang Tianqing Zhu Chi Liu Wanlei Zhou Shui Yu Philip S. Yu AAML ELM PILM 99 1 0 12 Nov 2024
SCAR: Sparse Conditioned Autoencoders for Concept Detection and Steering in LLMs Ruben Härle Felix Friedrich Manuel Brack Bjorn Deiseroth P. Schramowski Kristian Kersting 71 2 0 11 Nov 2024
AI Ethics by Design: Implementing Customizable Guardrails for Responsible AI Development Kristina Šekrst Jeremy McHugh Jonathan Rodriguez Cefalu 99 0 0 05 Nov 2024
SQL Injection Jailbreak: A Structural Disaster of Large Language Models Jiawei Zhao Kejiang Chen Weinan Zhang Nenghai Yu AAML 136 0 0 03 Nov 2024
Rule Based Rewards for Language Model Safety Tong Mu Alec Helyar Johannes Heidecke Joshua Achiam Andrea Vallone Ian Kivlichan Molly Lin Alex Beutel John Schulman Lilian Weng ALM 112 49 0 02 Nov 2024
Emoji Attack: Enhancing Jailbreak Attacks Against Judge LLM Detection Zhipeng Wei Yuqi Liu N. Benjamin Erichson AAML 81 1 0 01 Nov 2024
Audio Is the Achilles' Heel: Red Teaming Audio Large Multimodal Models Hao Yang Zhuang Li Ehsan Shareghi Gholamreza Haffari AAML 70 7 0 31 Oct 2024
Focus On This, Not That! Steering LLMs with Adaptive Feature Specification Tom A. Lamb Adam Davies Alasdair Paren Philip Torr Francesco Pinto 119 0 0 30 Oct 2024
InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models Haoyang Li Xiaogeng Liu SILM 137 9 0 30 Oct 2024
Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models Rishabh Adiga Besmira Nushi Varun Chandrasekaran 95 1 0 29 Oct 2024
Benchmarking LLM Guardrails in Handling Multilingual Toxicity Yahan Yang Soham Dan Dan Roth Insup Lee 53 9 0 29 Oct 2024
AmpleGCG-Plus: A Strong Generative Model of Adversarial Suffixes to Jailbreak LLMs with Higher Success Rates in Fewer Attempts Vishal Kumar Zeyi Liao Jaylen Jones Huan Sun AAML 116 3 0 29 Oct 2024
SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types Yutao Mou Shikun Zhang Wei Ye ELM 79 16 0 29 Oct 2024
Enhancing Adversarial Attacks through Chain of Thought Jingbo Su LRM 34 3 0 29 Oct 2024
Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring Honglin Mu Han He Yuxin Zhou Yunlong Feng Yang Xu ... Zeming Liu Xudong Han Qi Shi Qingfu Zhu Wanxiang Che AAML 89 1 0 28 Oct 2024
Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks Samuele Poppi Zheng-Xin Yong Yifei He Bobbie Chern Han Zhao Aobo Yang Jianfeng Chi AAML 158 21 0 23 Oct 2024
SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior Jing-Jing Li Valentina Pyatkin Max Kleiman-Weiner Liwei Jiang Nouha Dziri Anne Collins Jana Schaich Borg Maarten Sap Yejin Choi Sydney Levine 61 0 0 22 Oct 2024
LabSafety Bench: Benchmarking LLMs on Safety Issues in Scientific Labs Yujun Zhou Jingdong Yang Yue Huang Kehan Guo Zoe Emory ... Tian Gao Werner Geyer Nuno Moniz Nitesh Chawla Xiangliang Zhang 126 7 0 18 Oct 2024
POROver: Improving Safety and Reducing Overrefusal in Large Language Models with Overgeneration and Preference Optimization Batuhan K. Karaman Ishmam Zabir Alon Benhaim Vishrav Chaudhary M. Sabuncu Xia Song AI4CE 83 2 0 16 Oct 2024
Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models Hao Yang Zhuang Li Ehsan Shareghi Gholamreza Haffari AAML 99 2 0 15 Oct 2024
Cognitive Overload Attack:Prompt Injection for Long Context Bibek Upadhayay Vahid Behzadan Amin Karbasi AAML 88 2 0 15 Oct 2024
Disentangling Hate Across Target Identities Yiping Jin Leo Wanner Aneesh Moideen Koya 43 0 0 14 Oct 2024
On Calibration of LLM-based Guard Models for Reliable Content Moderation Hongfu Liu Hengguan Huang Hao Wang Xiangming Gu Ye Wang 176 4 0 14 Oct 2024
RMB: Comprehensively Benchmarking Reward Models in LLM Alignment Enyu Zhou Guodong Zheng Binghai Wang Zhiheng Xi Shihan Dou ... Yurong Mou Rui Zheng Tao Gui Qi Zhang Xuanjing Huang ALM 145 21 0 13 Oct 2024
JAILJUDGE: A Comprehensive Jailbreak Judge Benchmark with Multi-Agent Enhanced Explanation Evaluation Framework Fan Liu Yue Feng Zhao Xu Lixin Su Xinyu Ma Dawei Yin Hao Liu ELM 105 15 0 11 Oct 2024
RePD: Defending Jailbreak Attack through a Retrieval-based Prompt Decomposition Process Peiran Wang Xiaogeng Liu Chaowei Xiao AAML 62 4 0 11 Oct 2024
Refusal-Trained LLMs Are Easily Jailbroken As Browser Agents Priyanshu Kumar Elaine Lau Saranya Vijayakumar Tu Trinh Scale Red Team ... Sean Hendryx Shuyan Zhou Matt Fredrikson Summer Yue Zifan Wang LLMAG 88 26 0 11 Oct 2024
Evaluating Transformer Models for Suicide Risk Detection on Social Media Jakub Pokrywka Jeremi Kaczmarek Edward Gorzelañczyk 46 2 0 10 Oct 2024
How Does Vision-Language Adaptation Impact the Safety of Vision Language Models? Seongyun Lee Geewook Kim Jiyeon Kim Hyunji Lee Hoyeon Chang Sue Hyun Park Minjoon Seo 80 1 0 10 Oct 2024
Bridging Today and the Future of Humanity: AI Safety in 2024 and Beyond Shanshan Han 165 1 0 09 Oct 2024
ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time Yi Ding Bolian Li Ruqi Zhang MLLM 134 15 0 09 Oct 2024
TaeBench: Improving Quality of Toxic Adversarial Examples Xuan Zhu Dmitriy Bespalov Liwen You Ninad Kulkarni Yanjun Qi AAML 109 0 0 08 Oct 2024
Superficial Safety Alignment Hypothesis Jianwei Li Jung-Eun Kim 65 3 0 07 Oct 2024
Data Advisor: Dynamic Data Curation for Safety Alignment of Large Language Models Fei Wang Ninareh Mehrabi Palash Goyal Rahul Gupta Kai-Wei Chang Aram Galstyan ALM 71 2 0 07 Oct 2024
Latent Feature Mining for Predictive Model Enhancement with Large Language Models Bingxuan Li Pengyi Shi Amy Ward 127 11 0 06 Oct 2024
Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models Yiting Dong Guobin Shen Dongcheng Zhao Xiang He Yi Zeng 75 2 0 05 Oct 2024
Output Scouting: Auditing Large Language Models for Catastrophic Responses Andrew Bell Joao Fonseca KELM 135 2 0 04 Oct 2024
Position: LLM Unlearning Benchmarks are Weak Measures of Progress Pratiksha Thaker Shengyuan Hu Neil Kale Yash Maurya Zhiwei Steven Wu Virginia Smith MU 127 25 0 03 Oct 2024
FlipAttack: Jailbreak LLMs via Flipping Yue Liu Xiaoxin He Miao Xiong Jinlan Fu Shumin Deng Bryan Hooi AAML 92 17 0 02 Oct 2024
Towards Inference-time Category-wise Safety Steering for Large Language Models Amrita Bhattacharjee Shaona Ghosh Traian Rebedea Christopher Parisien LLMSV 73 6 0 02 Oct 2024
Endless Jailbreaks with Bijection Learning Brian R. Y. Huang Maximilian Li Leonard Tang AAML 150 8 0 02 Oct 2024
HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models Seanie Lee Haebin Seong Dong Bok Lee Minki Kang Xiaoyin Chen Dominik Wagner Yoshua Bengio Juho Lee Sung Ju Hwang 225 6 0 02 Oct 2024
The Perfect Blend: Redefining RLHF with Mixture of Judges Tengyu Xu Eryk Helenowski Karthik Abinav Sankararaman Di Jin Kaiyan Peng ... Gabriel Cohen Yuandong Tian Hao Ma Sinong Wang Han Fang 127 14 0 30 Sep 2024
Robust LLM safeguarding via refusal feature adversarial training L. Yu Virginie Do Karen Hambardzumyan Nicola Cancedda AAML 147 19 0 30 Sep 2024
GenTel-Safe: A Unified Benchmark and Shielding Framework for Defending Against Prompt Injection Attacks Rongchang Li Minjie Chen Chang Hu Han Chen Wenpeng Xing Meng Han SILM ELM 56 2 0 29 Sep 2024
RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking Yifan Jiang Kriti Aggarwal Tanmay Laud Kashif Munir Jay Pujara Subhabrata Mukherjee AAML 113 0 0 26 Sep 2024
Data-Centric AI Governance: Addressing the Limitations of Model-Focused Policies Ritwik Gupta Leah Walker Rodolfo Corona Stephanie Fu Suzanne Petryk Janet Napolitano Trevor Darrell Andrew W. Reddie ELM 83 5 0 25 Sep 2024
Enhancing Guardrails for Safe and Secure Healthcare AI Ananya Gangavarapu 43 1 0 25 Sep 2024
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI Ambrish Rawat Stefan Schoepf Giulio Zizzo Giandomenico Cornacchia Muhammad Zaid Hameed ... Elizabeth M. Daly Mark Purcell P. Sattigeri Pin-Yu Chen Kush R. Varshney AAML 104 8 0 23 Sep 2024
Backtracking Improves Generation Safety Yiming Zhang Jianfeng Chi Hailey Nguyen Kartikeya Upasani Daniel M. Bikel Jason Weston Eric Michael Smith SILM 124 8 0 22 Sep 2024