EnJa: Ensemble Jailbreak on Large Language Models

EnJa: Ensemble Jailbreak on Large Language Models

7 August 2024

Yu-Gang Jiang

Papers citing "EnJa: Ensemble Jailbreak on Large Language Models"

5 / 5 papers shown

Title
EasyJailbreak: A Unified Framework for Jailbreaking Large Language Models Weikang Zhou Xiao Wang Limao Xiong Han Xia Yingshuang Gu ... Lijun Li Jing Shao Tao Gui Qi Zhang Xuanjing Huang 77 32 0 18 Mar 2024
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 117 301 0 19 Sep 2023
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 227 502 0 28 Sep 2022
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned Deep Ganguli Liane Lovitt John Kernion Amanda Askell Yuntao Bai ... Nicholas Joseph Sam McCandlish C. Olah Jared Kaplan Jack Clark 231 446 0 23 Aug 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 333 11,953 0 04 Mar 2022