BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT

21 February 2023

Lichao Sun

Papers citing "BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT"

4 / 4 papers shown

Title
Security Concerns for Large Language Models: A Survey Miles Q. Li Benjamin C. M. Fung PILM ELM 106 0 0 24 May 2025
A Linear Approach to Data Poisoning Diego Granziol Donald Flynn AAML 173 0 0 21 May 2025
BackdoorBench: A Comprehensive Benchmark of Backdoor Learning Baoyuan Wu Hongrui Chen Ruotong Wang Zihao Zhu Shaokui Wei Danni Yuan Chaoxiao Shen ELM AAML 92 144 0 25 Jun 2022
Fine-Tuning Language Models from Human Preferences Daniel M. Ziegler Nisan Stiennon Jeff Wu Tom B. Brown Alec Radford Dario Amodei Paul Christiano G. Irving ALM 474 1,766 0 18 Sep 2019