v1v2 (latest)

Analyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jailbreak

7 December 2023

Papers citing "Analyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jailbreak"

2 / 2 papers shown

Title
JailbreakEval: An Integrated Toolkit for Evaluating Jailbreak Attempts Against Large Language Models Delong Ran Jinyuan Liu Yichen Gong Jingyi Zheng Xinlei He Tianshuo Cong Anyu Wang ELM 163 12 0 13 Jun 2024
Baichuan 2: Open Large-scale Language Models Ai Ming Yang Bin Xiao Bingning Wang Borong Zhang Ce Bian ... Youxin Jiang Yuchen Gao Yupeng Zhang Guosheng Dong Zhiying Wu ELM LRM 332 755 0 19 Sep 2023