FlipAttack: Jailbreak LLMs via Flipping

FlipAttack: Jailbreak LLMs via Flipping

2 October 2024

Yue Liu

Miao Xiong

Bryan Hooi

Papers citing "FlipAttack: Jailbreak LLMs via Flipping"

7 / 7 papers shown

Title
Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary Yakai Li Jiekang Hu Weiduan Sang Luping Ma Jing Xie Weijuan Zhang Aimin Yu Shijie Zhao Qingjia Huang Qihang Zhou AAML 52 0 0 28 Apr 2025
Geneshift: Impact of different scenario shift on Jailbreaking LLM Tianyi Wu Zhiwei Xue Yue Liu Jiaheng Zhang Bryan Hooi See-Kiong Ng 41 0 0 10 Apr 2025
A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models Carlos Peláez-González Andrés Herrera-Poyatos Cristina Zuheros David Herrera-Poyatos Virilo Tejedor F. Herrera AAML 24 0 0 07 Apr 2025
Efficient Inference for Large Reasoning Models: A Survey Yi Liu Jiaying Wu Yufei He Hongcheng Gao Hongyu Chen Baolong Bi Jiaheng Zhang Zhiqi Huang Bryan Hooi LLMAG LRM 73 7 0 29 Mar 2025
RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete Yuheng Ji Huajie Tan Jiayu Shi Xiaoshuai Hao Yuan Zhang ... Huaihai Lyu Xiaolong Zheng Jiaming Liu Zhongyuan Wang Shanghang Zhang 102 8 0 28 Feb 2025
Confidence Elicitation: A New Attack Vector for Large Language Models Brian Formento Chuan-Sheng Foo See-Kiong Ng AAML 99 0 0 07 Feb 2025
GuardReasoner: Towards Reasoning-based LLM Safeguards Yue Liu Hongcheng Gao Shengfang Zhai Jun Xia Tianyi Wu Zhiwei Xue Yuxiao Chen Kenji Kawaguchi Jiaheng Zhang Bryan Hooi AI4TS LRM 131 14 0 30 Jan 2025