Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks

11 February 2023

Tatsunori Hashimoto

Papers citing "Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks"

50 / 177 papers shown

Title
SecReEvalBench: A Multi-turned Security Resilience Evaluation Benchmark for Large Language Models Huining Cui Wei Liu AAML ELM 28 0 0 12 May 2025
LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities Kalyan Nakka Jimmy Dani Ausmit Mondal Nitesh Saxena AAML 30 0 0 08 May 2025
Attack and defense techniques in large language models: A survey and new perspectives Zhiyu Liao Kang Chen Yuanguo Lin Kangkang Li Yunxuan Liu Hefeng Chen Xingwang Huang Yuanhui Yu AAML 56 0 0 02 May 2025
NeuRel-Attack: Neuron Relearning for Safety Disalignment in Large Language Models Yi Zhou Wenpeng Xing Dezhang Kong Changting Lin Meng Han MU KELM LLMSV 50 0 0 29 Apr 2025
Prefill-Based Jailbreak: A Novel Approach of Bypassing LLM Safety Boundary Yakai Li Jiekang Hu Weiduan Sang Luping Ma Jing Xie Weijuan Zhang Aimin Yu Shijie Zhao Qingjia Huang Qihang Zhou AAML 52 0 0 28 Apr 2025
CipherBank: Exploring the Boundary of LLM Reasoning Capabilities through Cryptography Challenges Y. Li Qizhi Pei Mengyuan Sun Honglin Lin Chenlin Ming Xin Gao Jiang Wu C. He Lijun Wu ELM LRM 45 1 0 27 Apr 2025
Graph of Attacks: Improved Black-Box and Interpretable Jailbreaks for LLMs Mohammad Akbar-Tajari Mohammad Taher Pilehvar Mohammad Mahmoody AAML 48 0 0 26 Apr 2025
The Structural Safety Generalization Problem Julius Broomfield Tom Gibbs Ethan Kosak-Hine George Ingebretsen Tia Nasir Jason Zhang Reihaneh Iranmanesh Sara Pieri Reihaneh Rabbany Kellin Pelrine AAML 35 0 0 13 Apr 2025
CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent Liang-bo Ning Shijie Wang Wenqi Fan Qing Li Xin Xu Hao Chen Feiran Huang AAML 28 17 0 13 Apr 2025
A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models Carlos Peláez-González Andrés Herrera-Poyatos Cristina Zuheros David Herrera-Poyatos Virilo Tejedor F. Herrera AAML 24 0 0 07 Apr 2025
Frontier AI's Impact on the Cybersecurity Landscape Wenbo Guo Yujin Potter Tianneng Shi Zhun Wang Andy Zhang Dawn Song 52 2 0 07 Apr 2025
Rethinking Reflection in Pre-Training Essential AI Darsh J Shah Peter Rushton Somanshu Singla Mohit Parmar ... Philip Monk Platon Mazarakis Ritvik Kapila Saurabh Srivastava Tim Romanski ReLM LRM 49 3 0 05 Apr 2025
SandboxEval: Towards Securing Test Environment for Untrusted Code Rafiqul Rabin Jesse Hostetler Sean McGregor Brett Weir Nick Judd ELM 41 0 0 27 Mar 2025
Augmented Adversarial Trigger Learning Zhe Wang Yanjun Qi 58 0 0 16 Mar 2025
Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation Wenhui Zhang Huiyu Xu Zhibo Wang Zeqing He Ziqi Zhu Kui Ren AAML PILM 72 0 0 09 Mar 2025
Foot-In-The-Door: A Multi-turn Jailbreak for LLMs Zixuan Weng Xiaolong Jin Jinyuan Jia Xiaotian Zhang AAML 149 0 0 27 Feb 2025
A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos Yang Yao Xuan Tong Ruofan Wang Yixu Wang Lujundong Li Liang Liu Yan Teng Yishuo Wang LRM 51 3 0 19 Feb 2025
SafeEraser: Enhancing Safety in Multimodal Large Language Models through Multimodal Machine Unlearning Junkai Chen Zhijie Deng Kening Zheng Yibo Yan Shuliang Liu PeiJun Wu Peijie Jiang Jiaheng Liu Xuming Hu MU 69 3 0 18 Feb 2025
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models Jingwei Yi Yueqi Xie Bin Zhu Emre Kiciman Guangzhong Sun Xing Xie Fangzhao Wu AAML 62 65 0 28 Jan 2025
MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue Fengxiang Wang Ranjie Duan Peng Xiao Xiaojun Jia Shiji Zhao ... Hang Su Jialing Tao Hui Xue Jun Zhu Hui Xue LLMAG 64 7 0 08 Jan 2025
Security Attacks on LLM-based Code Completion Tools Wen Cheng Ke Sun Xinyu Zhang Wei Wang SILM AAML ELM 65 0 0 03 Jan 2025
Towards Action Hijacking of Large Language Model-based Agent Yuyang Zhang Kangjie Chen Xudong Jiang Yuxiang Sun Run Wang Lina Wang LLMAG AAML 73 2 0 14 Dec 2024
Next-Generation Phishing: How LLM Agents Empower Cyber Attackers Khalifa Afane Wenqi Wei Ying Mao Junaid Farooq Juntao Chen 80 3 0 21 Nov 2024
Beyond the Safety Bundle: Auditing the Helpful and Harmless Dataset Khaoula Chehbouni Jonathan Colaço-Carr Yash More Jackie CK Cheung G. Farnadi 78 0 0 12 Nov 2024
Enhancing Multiple Dimensions of Trustworthiness in LLMs via Sparse Activation Control Yuxin Xiao Chaoqun Wan Yonggang Zhang Wenxiao Wang Binbin Lin Xiaofei He Xu Shen Jieping Ye 29 0 0 04 Nov 2024
Plentiful Jailbreaks with String Compositions Brian R. Y. Huang AAML 46 2 0 01 Nov 2024
BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks Yunhan Zhao Xiang Zheng Lin Luo Yige Li Xingjun Ma Yu-Gang Jiang VLM AAML 62 3 0 28 Oct 2024
Adversarial Attacks on Large Language Models Using Regularized Relaxation Samuel Jacob Chacko Sajib Biswas Chashi Mahiul Islam Fatema Tabassum Liza Xiuwen Liu AAML 31 2 0 24 Oct 2024
Insights and Current Gaps in Open-Source LLM Vulnerability Scanners: A Comparative Analysis Jonathan Brokman Omer Hofman Oren Rachmil Inderjeet Singh Vikas Pahuja Rathina Sabapathy Aishvariya Priya Amit Giloni Roman Vainshtein Hisashi Kojima 36 2 0 21 Oct 2024
Voice-Enabled AI Agents can Perform Common Scams Richard Fang Dylan Bowman Daniel Kang 28 1 0 21 Oct 2024
SMILES-Prompting: A Novel Approach to LLM Jailbreak Attacks in Chemical Synthesis Aidan Wong He Cao Zijing Liu Yu Li 44 2 0 21 Oct 2024
Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models Xiao-Li Li Zhuhong Li Qiongxiu Li Bingze Lee Jinghao Cui Xiaolin Hu AAML 27 2 0 20 Oct 2024
SPIN: Self-Supervised Prompt INjection Leon Zhou Junfeng Yang Chengzhi Mao AAML SILM 30 0 0 17 Oct 2024
Insights from the Inverse: Reconstructing LLM Training Goals Through Inverse Reinforcement Learning Jared Joselowitz Arjun Jagota Satyapriya Krishna Sonali Parbhoo Nyal Patel Satyapriya Krishna Sonali Parbhoo 26 0 0 16 Oct 2024
Jigsaw Puzzles: Splitting Harmful Questions to Jailbreak Large Language Models Hao Yang Lizhen Qu Ehsan Shareghi Gholamreza Haffari AAML 36 1 0 15 Oct 2024
Cognitive Overload Attack:Prompt Injection for Long Context Bibek Upadhayay Vahid Behzadan Amin Karbasi AAML 34 2 0 15 Oct 2024
Are You Human? An Adversarial Benchmark to Expose LLMs Gilad Gressel Rahul Pankajakshan Yisroel Mirsky DeLMO 38 0 0 12 Oct 2024
Prompt Infection: LLM-to-LLM Prompt Injection within Multi-Agent Systems Donghyun Lee Mo Tiwari LLMAG 36 9 0 09 Oct 2024
From Pixels to Personas: Investigating and Modeling Self-Anthropomorphism in Human-Robot Dialogues Yu Li Devamanyu Hazarika Di Jin Julia Hirschberg Yang Liu 28 0 0 04 Oct 2024
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents Hanrong Zhang Jingyuan Huang Kai Mei Yifei Yao Zhenting Wang Chenlu Zhan Hongwei Wang Yongfeng Zhang AAML LLMAG ELM 51 22 0 03 Oct 2024
FlipAttack: Jailbreak LLMs via Flipping Yue Liu Xiaoxin He Miao Xiong Jinlan Fu Shumin Deng Bryan Hooi AAML 34 12 0 02 Oct 2024
MoJE: Mixture of Jailbreak Experts, Naive Tabular Classifiers as Guard for Prompt Attacks Giandomenico Cornacchia Giulio Zizzo Kieran Fraser Muhammad Zaid Hameed Ambrish Rawat Mark Purcell 26 1 0 26 Sep 2024
RED QUEEN: Safeguarding Large Language Models against Concealed Multi-Turn Jailbreaking Yifan Jiang Kriti Aggarwal Tanmay Laud Kashif Munir Jay Pujara Subhabrata Mukherjee AAML 53 10 0 26 Sep 2024
Attack Atlas: A Practitioner's Perspective on Challenges and Pitfalls in Red Teaming GenAI Ambrish Rawat Stefan Schoepf Giulio Zizzo Giandomenico Cornacchia Muhammad Zaid Hameed ... Elizabeth M. Daly Mark Purcell P. Sattigeri Pin-Yu Chen Kush R. Varshney AAML 40 7 0 23 Sep 2024
CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration Jiahui Gao Renjie Pi Tianyang Han Han Wu Lanqing Hong Lingpeng Kong Xin Jiang Zhenguo Li 41 5 0 17 Sep 2024
Jailbreaking Large Language Models with Symbolic Mathematics Emet Bethany Mazal Bethany Juan Arturo Nolazco Flores S. Jha Peyman Najafirad AAML 18 3 0 17 Sep 2024
Exploring LLMs for Malware Detection: Review, Framework Design, and Countermeasure Approaches Jamal N. Al-Karaki Muhammad Al-Zafar Khan Marwan Omar 34 6 0 11 Sep 2024
Emerging Vulnerabilities in Frontier Models: Multi-Turn Jailbreak Attacks Tom Gibbs Ethan Kosak-Hine George Ingebretsen Jason Zhang Julius Broomfield Sara Pieri Reihaneh Iranmanesh Reihaneh Rabbany Kellin Pelrine AAML 41 6 0 29 Aug 2024
Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models Hongfu Liu Yuxi Xie Ye Wang Michael Shieh 70 2 0 27 Aug 2024
LLM-PBE: Assessing Data Privacy in Large Language Models Qinbin Li Junyuan Hong Chulin Xie Jeffrey Tan Rachel Xin ... Dan Hendrycks Zhangyang Wang Bo Li Bingsheng He Dawn Song ELM PILM 40 13 0 23 Aug 2024