Protecting Your LLMs with Information Bottleneck

Protecting Your LLMs with Information Bottleneck

22 April 2024

Linjie Xu

Lei Song

Jiang Bian

Papers citing "Protecting Your LLMs with Information Bottleneck"

15 / 15 papers shown

Title
DETAM: Defending LLMs Against Jailbreak Attacks via Targeted Attention Modification Yu Li Han Jiang Zhihua Wei AAML 38 0 0 18 Apr 2025
LightDefense: A Lightweight Uncertainty-Driven Defense against Jailbreaks via Shifted Token Distribution Zhuoran Yang Jie Peng Zhen Tan Tianlong Chen Yanyong Zhang AAML 44 0 0 02 Apr 2025
Evolving Security in LLMs: A Study of Jailbreak Attacks and Defenses Zhengchun Shang Wenlan Wei AAML 45 0 0 02 Apr 2025
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs Zixuan Weng Xiaolong Jin Jinyuan Jia Xiaotian Zhang AAML 149 0 0 27 Feb 2025
BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks Yunhan Zhao Xiang Zheng Lin Luo Yige Li Xingjun Ma Yu-Gang Jiang VLM AAML 60 3 0 28 Oct 2024
Fast Convergence of $Φ$ -Divergence Along the Unadjusted Langevin Algorithm and Proximal Sampler Siddharth Mitra Andre Wibisono 57 0 0 14 Oct 2024
Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) Apurv Verma Satyapriya Krishna Sebastian Gehrmann Madhavan Seshadri Anu Pradhan Tom Ault Leslie Barrett David Rabinowitz John Doucette Nhathai Phan 54 10 0 20 Jul 2024
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training Youliang Yuan Wenxiang Jiao Wenxuan Wang Jen-tse Huang Jiahao Xu Tian Liang Pinjia He Zhaopeng Tu 43 19 0 12 Jul 2024
Bag of Tricks: Benchmarking of Jailbreak Attacks on LLMs Zhao Xu Fan Liu Hao Liu AAML 42 8 0 13 Jun 2024
Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs Fan Liu Zhao Xu Hao Liu AAML 43 10 0 07 Jun 2024
TimeX++: Learning Time-Series Explanations with Information Bottleneck Zichuan Liu Tianchun Wang Jimeng Shi Xu Zheng Zhuomin Chen Lei Song Wenqian Dong J. Obeysekera Farhad Shirani Dongsheng Luo AI4TS 34 7 0 15 May 2024
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models Weikang Zhou Xiao Wang Limao Xiong Han Xia Yingshuang Gu ... Lijun Li Jing Shao Tao Gui Qi Zhang Xuanjing Huang 75 32 0 18 Mar 2024
AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks Yifan Zeng Yiran Wu Xiao Zhang Huazheng Wang Qingyun Wu LLMAG AAML 42 61 0 02 Mar 2024
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 117 301 0 19 Sep 2023
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,953 0 04 Mar 2022