Securing AI Agents with Information-Flow Control

Securing AI Agents with Information-Flow Control

29 May 2025

Aashish Kolluri

Lukas Wutschitz

Santiago Zanella Béguelin

Papers citing "Securing AI Agents with Information-Flow Control"

17 / 17 papers shown

Title
RTBAS: Defending LLM Agents Against Prompt Injection and Privacy Leakage Peter Yong Zhong Siyuan Chen Ruiqi Wang McKenna McCall Ben L. Titzer Heather Miller Phillip B. Gibbons LLMAG 154 7 0 17 Feb 2025
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models Jingwei Yi Yueqi Xie Bin Zhu Emre Kiciman Guangzhong Sun Xing Xie Fangzhao Wu AAML 122 79 0 28 Jan 2025
The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents Feiran Jia Tong Wu Xin Qin Anna Squicciarini LLMAG AAML 137 7 0 21 Dec 2024
Magentic-One: A Generalist Multi-Agent System for Solving Complex Tasks Adam Fourney Gagan Bansal Hussein Mozannar Cheng Tan Eduardo Salinas ... Victor C. Dibia Ahmed Hassan Awadallah Ece Kamar Rafah Hosn Saleema Amershi AI4CE LRM LLMAG 122 44 0 07 Nov 2024
Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy Tong Wu Shujian Zhang Kaiqiang Song Silei Xu Sanqiang Zhao Ravi Agrawal Sathish Indurthi Chong Xiang Prateek Mittal Wenxuan Zhou 91 13 0 09 Oct 2024
System-Level Defense against Indirect Prompt Injection Attacks: An Information Flow Control Perspective Fangzhou Wu Ethan Cecchetti Chaowei Xiao 77 16 0 27 Sep 2024
The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions Eric Wallace Kai Y. Xiao R. Leike Lilian Weng Johannes Heidecke Alex Beutel SILM 99 137 0 19 Apr 2024
Defending Against Indirect Prompt Injection Attacks With Spotlighting Keegan Hines Gary Lopez Matthew Hall Federico Zarfati Yonatan Zunger Emre Kiciman AAML SILM 88 49 0 20 Mar 2024
GradSafe: Detecting Jailbreak Prompts for LLMs via Safety-Critical Gradient Analysis Yueqi Xie Minghong Fang Renjie Pi Neil Zhenqiang Gong 91 30 0 21 Feb 2024
StruQ: Defending Against Prompt Injection with Structured Queries Sizhe Chen Julien Piet Chawin Sitawarin David Wagner SILM AAML 69 84 0 09 Feb 2024
Guiding LLMs The Right Way: Fast, Non-Invasive Constrained Generation Luca Beurer-Kellner Marc Fischer Martin Vechev 78 44 0 07 Feb 2024
Prompt Injection attack against LLM-integrated Applications Yi Liu Gelei Deng Yuekang Li Kailong Wang Zihao Wang ... Tianwei Zhang Yepang Liu Haoyu Wang Yanhong Zheng Yang Liu SILM 108 355 0 08 Jun 2023
Grammar-Constrained Decoding for Structured NLP Tasks without Finetuning Saibo Geng Martin Josifosky Maxime Peyrard Robert West 70 66 0 23 May 2023
Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection Kai Greshake Sahar Abdelnabi Shailesh Mishra C. Endres Thorsten Holz Mario Fritz SILM 126 488 0 23 Feb 2023
Toolformer: Language Models Can Teach Themselves to Use Tools Timo Schick Jane Dwivedi-Yu Roberto Dessì Roberta Raileanu Maria Lomeli Luke Zettlemoyer Nicola Cancedda Thomas Scialom SyDa RALM 149 1,727 0 09 Feb 2023
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 429 2,876 0 06 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 874 12,973 0 04 Mar 2022