PsySafe: A Comprehensive Framework for Psychological-based Attack,
Defense, and Evaluation of Multi-agent System Safety

PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety

22 January 2024

Huchuan Lu

Yu Qiao

Papers citing "PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety"

17 / 17 papers shown

Title
PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing Yu Yan Sheng Sun Zhifei Zheng Ziji Hao Teli Liu Min Liu AAML 130 0 0 27 May 2025
MASTER: Multi-Agent Security Through Exploration of Roles and Topological Structures -- A Comprehensive Framework Yifan Zhu Chao Zhang Xin Shi Xueqiao Zhang Yi Yang Yawei Luo LLMAG 51 0 0 24 May 2025
A Survey on the Safety and Security Threats of Computer-Using Agents: JARVIS or Ultron? Ada Chen Yongjiang Wu Jing Zhang Shu Yang Jen-tse Huang Kun Wang Wenxuan Wang Wenxuan Wang S. Wang ELM 71 2 0 16 May 2025
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training Youliang Yuan Wenxiang Jiao Wenxuan Wang Jen-tse Huang Jiahao Xu Tian Liang Pinjia He Zhaopeng Tu 74 28 0 12 Jul 2024
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model Yongting Zhang Lu Chen Guodong Zheng Yifeng Gao Rui Zheng ... Yu Qiao Xuanjing Huang Feng Zhao Tao Gui Jing Shao VLM 120 30 0 17 Jun 2024
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations Hakan Inan Kartikeya Upasani Jianfeng Chi Rashi Rungta Krithika Iyer ... Michael Tontchev Qing Hu Brian Fuller Davide Testuggine Madian Khabsa AI4MH 139 434 0 07 Dec 2023
SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks Alexander Robey Eric Wong Hamed Hassani George J. Pappas AAML 103 246 0 05 Oct 2023
GPTFUZZER: Red Teaming Large Language Models with Auto-Generated Jailbreak Prompts Jiahao Yu Xingwei Lin Zheng Yu Xinyu Xing SILM 163 340 0 19 Sep 2023
The Rise and Potential of Large Language Model Based Agents: A Survey Zhiheng Xi Wenxiang Chen Xin Guo Wei He Yiwen Ding ... Wenjuan Qin Yongyan Zheng Xipeng Qiu Xuanjing Huan Tao Gui LM&MA LM&Ro 3DV AI4CE 92 917 0 14 Sep 2023
Certifying LLM Safety against Adversarial Prompting Aounon Kumar Chirag Agarwal Suraj Srinivas Aaron Jiaxun Li Soheil Feizi Himabindu Lakkaraju AAML 74 188 0 06 Sep 2023
Image Hijacks: Adversarial Images can Control Generative Models at Runtime Luke Bailey Euan Ong Stuart J. Russell Scott Emmons VLM MLLM 57 84 0 01 Sep 2023
The Cultural Psychology of Large Language Models: Is ChatGPT a Holistic or Analytic Thinker? Chuanyang Jin Songyang Zhang Tianmin Shu Zhihan Cui LLMAG AI4MH 45 5 0 28 Aug 2023
Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou Zifan Wang Nicholas Carlini Milad Nasr J. Zico Kolter Matt Fredrikson 282 1,436 0 27 Jul 2023
Large Language Models Understand and Can be Enhanced by Emotional Stimuli Cheng-rong Li Jindong Wang Yixuan Zhang Kaijie Zhu Wenxin Hou Jianxun Lian Fang Luo Qiang Yang Xingxu Xie LRM 99 127 0 14 Jul 2023
DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models Wei Ping Weixin Chen Hengzhi Pei Chulin Xie Mintong Kang ... Zinan Lin Yuk-Kit Cheng Sanmi Koyejo D. Song Yue Liu 89 413 0 20 Jun 2023
Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents Yashar Talebirad Amirhossein Nadiri LLMAG 97 222 0 05 Jun 2023
MetaICL: Learning to Learn In Context Sewon Min M. Lewis Luke Zettlemoyer Hannaneh Hajishirzi LRM 192 488 0 29 Oct 2021