Detecting Language Model Attacks with Perplexity

27 August 2023

Papers citing "Detecting Language Model Attacks with Perplexity"

50 / 136 papers shown

Title
LARGO: Latent Adversarial Reflection through Gradient Optimization for Jailbreaking LLMs Ran Li Hao Wang Chengzhi Mao AAML 21 0 0 16 May 2025
Adversarial Suffix Filtering: a Defense Pipeline for LLMs David Khachaturov Robert D. Mullins AAML 26 0 0 14 May 2025
One Trigger Token Is Enough: A Defense Strategy for Balancing Safety and Usability in Large Language Models Haoran Gu Handing Wang Yi Mei Mengjie Zhang Yaochu Jin 27 0 0 12 May 2025
LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities Kalyan Nakka Jimmy Dani Ausmit Mondal Nitesh Saxena AAML 30 0 0 08 May 2025
Attack and defense techniques in large language models: A survey and new perspectives Zhiyu Liao Kang Chen Yuanguo Lin Kangkang Li Yunxuan Liu Hefeng Chen Xingwang Huang Yuanhui Yu AAML 54 0 0 02 May 2025
LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures Francisco Aguilera-Martínez Fernando Berzal PILM 52 0 0 02 May 2025
What's Pulling the Strings? Evaluating Integrity and Attribution in AI Training and Inference through Concept Shift Jiamin Chang Hao Li Hammond Pearce Ruoxi Sun Bo-wen Li Minhui Xue 38 0 0 28 Apr 2025
Prompt Injection Attack to Tool Selection in LLM Agents Jiawen Shi Zenghui Yuan Guiyao Tie Pan Zhou Neil Zhenqiang Gong Lichao Sun LLMAG 51 0 0 28 Apr 2025
DualBreach: Efficient Dual-Jailbreaking via Target-Driven Initialization and Multi-Target Optimization Xinzhe Huang Kedong Xiu T. Zheng Churui Zeng Wangze Ni Zhan Qiin K. Ren Cheng Chen AAML 33 0 0 21 Apr 2025
The Structural Safety Generalization Problem Julius Broomfield Tom Gibbs Ethan Kosak-Hine George Ingebretsen Tia Nasir Jason Zhang Reihaneh Iranmanesh Sara Pieri Reihaneh Rabbany Kellin Pelrine AAML 35 0 0 13 Apr 2025
Feature-Aware Malicious Output Detection and Mitigation Weilong Dong Peiguang Li Yu Tian Xinyi Zeng Fengdi Li Sirui Wang AAML 24 0 0 12 Apr 2025
Geneshift: Impact of different scenario shift on Jailbreaking LLM Tianyi Wu Zhiwei Xue Yue Liu Jiaheng Zhang Bryan Hooi See-Kiong Ng 38 0 0 10 Apr 2025
StealthRank: LLM Ranking Manipulation via Stealthy Prompt Optimization Yiming Tang Yi Fan Chenxiao Yu Tiankai Yang Yue Zhao Xiyang Hu 26 1 0 08 Apr 2025
A Perplexity and Menger Curvature-Based Approach for Similarity Evaluation of Large Language Models Yuantao Zhang Zhankui Yang AAML 35 0 0 05 Apr 2025
Practical Poisoning Attacks against Retrieval-Augmented Generation Baolei Zhang Y. Chen Minghong Fang Zhuqing Liu Lihai Nie Tong Li Zheli Liu SILM AAML 64 0 0 04 Apr 2025
$PiCo: Jailbreaking Multimodal Large Language Models via $\textbf{Pi}$ctorial $\textbf{Co}$de Contextualization$ PiCo: Jailbreaking Multimodal Large Language Models via $\textbf{Pi}$ ctorial $\textbf{Co}$ de Contextualization Aofan Liu Lulu Tang Ting Pan Yuguo Yin Bin Wang Ao Yang MLLM AAML 45 0 0 02 Apr 2025
Evolving Security in LLMs: A Study of Jailbreak Attacks and Defenses Zhengchun Shang Wenlan Wei AAML 45 0 0 02 Apr 2025
STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models Xunguang Wang Wenxuan Wang Zhenlan Ji Zongjie Li Pingchuan Ma Daoyuan Wu Shuai Wang 48 0 0 23 Mar 2025
Parameters vs. Context: Fine-Grained Control of Knowledge Reliance in Language Models Baolong Bi Shenghua Liu Yixuan Wang Yilong Xu Fan Zhang Lingrui Mei Xueqi Cheng KELM 61 4 0 20 Mar 2025
Prompt Injection Detection and Mitigation via AI Multi-Agent NLP Frameworks Diego Gosmar Deborah A. Dahl Dario Gosmar AAML 53 0 0 14 Mar 2025
CtrlRAG: Black-box Adversarial Attacks Based on Masked Language Models in Retrieval-Augmented Language Generation Runqi Sui AAML 44 0 0 10 Mar 2025
Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation Wenhui Zhang Huiyu Xu Zhibo Wang Zeqing He Ziqi Zhu Kui Ren AAML PILM 72 0 0 09 Mar 2025
Beyond Natural Language Perplexity: Detecting Dead Code Poisoning in Code Generation Datasets Chichien Tsai Chiamu Yu Yingdar Lin Yusung Wu Weibin Lee AAML 53 0 0 27 Feb 2025
Beyond Surface-Level Patterns: An Essence-Driven Defense Framework Against Jailbreak Attacks in LLMs Shiyu Xiang Ansen Zhang Yanfei Cao Yang Fan Ronghao Chen AAML 60 0 0 26 Feb 2025
Adversarial Prompt Evaluation: Systematic Benchmarking of Guardrails Against Prompt Input Attacks on LLMs Giulio Zizzo Giandomenico Cornacchia Kieran Fraser Muhammad Zaid Hameed Ambrish Rawat Beat Buesser Mark Purcell Pin-Yu Chen P. Sattigeri Kush R. Varshney AAML 43 2 0 24 Feb 2025
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement Zhexin Zhang Leqi Lei Junxiao Yang Xijie Huang Yida Lu ... Xianqi Lei C. Pan Lei Sha Hairu Wang Minlie Huang AAML 48 0 0 24 Feb 2025
SafeInt: Shielding Large Language Models from Jailbreak Attacks via Safety-Aware Representation Intervention Jiaqi Wu Chen Chen Chunyan Hou Xiaojie Yuan AAML 59 0 0 24 Feb 2025
A generative approach to LLM harmfulness detection with special red flag tokens Sophie Xhonneux David Dobre Mehrnaz Mohfakhami Leo Schwinn Gauthier Gidel 55 1 0 22 Feb 2025
Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models Yingqian Cui Pengfei He Jingying Zeng Hui Liu X. Tang ... Zhen Li Suhang Wang Yue Xing Jiliang Tang Qi He LRM 52 7 0 18 Feb 2025
UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models Huawei Lin Yingjie Lao Tong Geng Tan Yu Weijie Zhao AAML SILM 79 2 0 18 Feb 2025
DELMAN: Dynamic Defense Against Large Language Model Jailbreaking with Model Editing Yi Wang Fenghua Weng Songlin Yang Zhan Qin Minlie Huang Wenjie Wang KELM AAML 53 0 0 17 Feb 2025
KDA: A Knowledge-Distilled Attacker for Generating Diverse Prompts to Jailbreak LLMs Buyun Liang Kwan Ho Ryan Chan D. Thaker Jinqi Luo René Vidal AAML 43 0 0 05 Feb 2025
Smoothed Embeddings for Robust Language Models Ryo Hase Md. Rafi Ur Rashid Ashley Lewis Jing Liu T. Koike-Akino K. Parsons Yunhong Wang AAML 46 0 0 27 Jan 2025
MRJ-Agent: An Effective Jailbreak Agent for Multi-Round Dialogue Fengxiang Wang Ranjie Duan Peng Xiao Xiaojun Jia Shiji Zhao ... Hang Su Jialing Tao Hui Xue Jun Zhu Hui Xue LLMAG 61 7 0 08 Jan 2025
GASLITEing the Retrieval: Exploring Vulnerabilities in Dense Embedding-based Search Matan Ben-Tov Mahmood Sharif RALM 40 0 0 31 Dec 2024
JailPO: A Novel Black-box Jailbreak Framework via Preference Optimization against Aligned LLMs Hao Li Jiawei Ye Jie Wu Tianjie Yan Chu Wang Zhixin Li AAML 72 0 0 20 Dec 2024
No Free Lunch for Defending Against Prefilling Attack by In-Context Learning Zhiyu Xue Guangliang Liu Bocheng Chen K. Johnson Ramtin Pedarsani AAML 73 0 0 13 Dec 2024
FlexLLM: Exploring LLM Customization for Moving Target Defense on Black-Box LLMs Against Jailbreak Attacks Bocheng Chen Hanqing Guo Qiben Yan AAML 76 0 0 10 Dec 2024
Time-Reversal Provides Unsupervised Feedback to LLMs Yerram Varun Rahul Madhavan Sravanti Addepalli A. Suggala Karthikeyan Shanmugam Prateek Jain LRM SyDa 64 0 0 03 Dec 2024
DROJ: A Prompt-Driven Attack against Large Language Models Leyang Hu Boran Wang 34 0 0 14 Nov 2024
Attention Tracker: Detecting Prompt Injection Attacks in LLMs Kuo-Han Hung Ching-Yun Ko Ambrish Rawat I-Hsin Chung Winston H. Hsu Pin-Yu Chen 49 7 0 01 Nov 2024
AR-Pro: Counterfactual Explanations for Anomaly Repair with Formal Properties Xiayan Ji Anton Xue Eric Wong O. Sokolsky Insup Lee 36 1 0 31 Oct 2024
AdvI2I: Adversarial Image Attack on Image-to-Image Diffusion models Yaopei Zeng Yuanpu Cao Bochuan Cao Yurui Chang Jinghui Chen Lu Lin DiffM 36 3 0 28 Oct 2024
BlueSuffix: Reinforced Blue Teaming for Vision-Language Models Against Jailbreak Attacks Yunhan Zhao Xiang Zheng Lin Luo Yige Li Xingjun Ma Yu-Gang Jiang VLM AAML 62 3 0 28 Oct 2024
Stealthy Jailbreak Attacks on Large Language Models via Benign Data Mirroring Honglin Mu Han He Yuxin Zhou Yunlong Feng Yang Xu ... Zeming Liu Xudong Han Qi Shi Qingfu Zhu Wanxiang Che AAML 38 1 0 28 Oct 2024
Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization Xiyue Peng Hengquan Guo Jiawei Zhang Dongqing Zou Ziyu Shao Honghao Wei Xin Liu 44 0 0 25 Oct 2024
Dynamic Guided and Domain Applicable Safeguards for Enhanced Security in Large Language Models He Cao Weidi Luo Zijing Liu Yu Wang Bing Feng Yuan Yao Yuan Yao Yu Li AAML 56 1 0 23 Oct 2024
LLMScan: Causal Scan for LLM Misbehavior Detection Mengdi Zhang Kai Kiat Goh Peixin Zhang Jun Sun Rose Lin Xin Hongyu Zhang 23 0 0 22 Oct 2024
Locking Down the Finetuned LLMs Safety Minjun Zhu Linyi Yang Yifan Wei Ningyu Zhang Yue Zhang 36 8 0 14 Oct 2024
Fast Convergence of $Φ$ -Divergence Along the Unadjusted Langevin Algorithm and Proximal Sampler Siddharth Mitra Andre Wibisono 60 0 0 14 Oct 2024