Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue

27 February 2024

Papers citing "Speak Out of Turn: Safety Vulnerability of Large Language Models in Multi-turn Dialogue"

6 / 6 papers shown

Title
OpenDeception: Benchmarking and Investigating AI Deceptive Behaviors via Open-ended Interaction Simulation Yichen Wu Xudong Pan Geng Hong Min Yang LLMAG 40 0 0 18 Apr 2025
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs Zixuan Weng Xiaolong Jin Jinyuan Jia Xiaotian Zhang AAML 149 0 0 27 Feb 2025
SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks Hongye Cao Yanming Wang Sijia Jing Ziyue Peng Zhixin Bai ... Yang Gao Fanyu Meng Xi Yang Chao Deng Junlan Feng AAML 41 0 0 16 Feb 2025
MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue Fengxiang Wang Ranjie Duan Peng Xiao Xiaojun Jia Shiji Zhao ... Hang Su Jialing Tao Hui Xue Jun Zhu Hui Xue LLMAG 64 7 0 08 Jan 2025
Multi-Turn Context Jailbreak Attack on Large Language Models From First Principles Xiongtao Sun Deyue Zhang Dongdong Yang Quanchen Zou Hui Li AAML 34 11 0 08 Aug 2024
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 328 11,953 0 04 Mar 2022