AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions

17 June 2025

Papers citing "AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions"

6 / 6 papers shown

Title
Agent-E: From Autonomous Web Navigation to Foundational Design Principles in Agentic Systems Tamer Abuelsaad Deepak Akkil Prasenjit Dey Ashish Jagmohan Aditya Vempaty Ravi Kokku 89 28 0 17 Jul 2024
How Johnny Can Persuade LLMs to Jailbreak Them: Rethinking Persuasion to Challenge AI Safety by Humanizing LLMs Yi Zeng Hongpeng Lin Jingwen Zhang Diyi Yang Ruoxi Jia Weiyan Shi 90 312 0 12 Jan 2024
Pre-trained Trojan Attacks for Visual Recognition Aishan Liu Xinwei Zhang Yisong Xiao Yuguang Zhou Siyuan Liang Jiakai Wang Xianglong Liu Xiaochun Cao Dacheng Tao AAML 103 30 0 23 Dec 2023
Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou Zifan Wang Nicholas Carlini Milad Nasr J. Zico Kolter Matt Fredrikson 291 1,498 0 27 Jul 2023
Large Language Models Michael R Douglas LLMAG LM&MA 138 637 0 11 Jul 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.4K 14,631 0 15 Mar 2023