BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning

19 December 2023

Papers citing "BadRL: Sparse Targeted Backdoor Attack Against Reinforcement Learning"

7 / 7 papers shown

Title
BadMoE: Backdooring Mixture-of-Experts LLMs via Optimizing Routing Triggers and Infecting Dormant Experts Qingyue Wang Qi Pang Xixun Lin Shuai Wang Daoyuan Wu MoE 59 0 0 24 Apr 2025
UNIDOOR: A Universal Framework for Action-Level Backdoor Attacks in Deep Reinforcement Learning Oubo Ma L. Du Yang Dai Chunyi Zhou Qingming Li Yuwen Pu Shouling Ji 46 0 0 28 Jan 2025
Recent Advances in Attack and Defense Approaches of Large Language Models Jing Cui Yishi Xu Zhewei Huang Shuchang Zhou Jianbin Jiao Junge Zhang PILM AAML 54 1 0 05 Sep 2024
SleeperNets: Universal Backdoor Poisoning Attacks Against Reinforcement Learning Agents Ethan Rathbun Christopher Amato Alina Oprea OffRL AAML 46 4 0 30 May 2024
Watch Out for Your Agents! Investigating Backdoor Threats to LLM-Based Agents Wenkai Yang Xiaohan Bi Yankai Lin Sishuo Chen Jie Zhou Xu Sun LLMAG AAML 44 53 0 17 Feb 2024
BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning Lun Wang Zaynah Javed Xian Wu Wenbo Guo Xinyu Xing D. Song AAML 166 64 0 02 May 2021
Reward Poisoning in Reinforcement Learning: Attacks Against Unknown Learners in Unknown Environments Amin Rakhsha Xuezhou Zhang Xiaojin Zhu Adish Singla AAML OffRL 38 37 0 16 Feb 2021