Securing Multi-turn Conversational Language Models Against Distributed
Backdoor Triggers

Securing Multi-turn Conversational Language Models Against Distributed Backdoor Triggers

4 July 2024

Qin Liu

Muhao Chen

Papers citing "Securing Multi-turn Conversational Language Models Against Distributed Backdoor Triggers"

8 / 8 papers shown

Title
SudoLM: Learning Access Control of Parametric Knowledge with Authorization Alignment Qin Liu Fei Wang Chaowei Xiao Muhao Chen 154 0 0 18 Oct 2024
Defending against Insertion-based Textual Backdoor Attacks via Attribution Jiazhao Li Zhuofeng Wu Ming-Yu Liu Chaowei Xiao V. Vydiswaran 42 23 0 03 May 2023
Poisoning Language Models During Instruction Tuning Alexander Wan Eric Wallace Sheng Shen Dan Klein SILM 97 124 0 01 May 2023
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 328 4,077 0 24 May 2022
Multitask Prompted Training Enables Zero-Shot Task Generalization Victor Sanh Albert Webson Colin Raffel Stephen H. Bach Lintang Sutawika ... T. Bers Stella Biderman Leo Gao Thomas Wolf Alexander M. Rush LRM 213 1,657 0 15 Oct 2021
Mind the Style of Text! Adversarial and Backdoor Attacks Based on Text Style Transfer Fanchao Qi Yangyi Chen Xurui Zhang Mukai Li Zhiyuan Liu Maosong Sun AAML SILM 82 175 0 14 Oct 2021
Mitigating backdoor attacks in LSTM-based Text Classification Systems by Backdoor Keyword Identification Chuanshuai Chen Jiazhu Dai SILM 55 126 0 11 Jul 2020
The Bottom-up Evolution of Representations in the Transformer: A Study with Machine Translation and Language Modeling Objectives Elena Voita Rico Sennrich Ivan Titov 198 181 0 03 Sep 2019