GuardReasoner: Towards Reasoning-based LLM Safeguards

30 January 2025

Papers citing "GuardReasoner: Towards Reasoning-based LLM Safeguards"

11 / 11 papers shown

Title
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning Yong-Jin Liu Shengfang Zhai Mingzhe Du Yulin Chen Tri Cao ... Xuzhao Li Kun Wang Junfeng Fang Jiaheng Zhang Bryan Hooi OffRL LRM 16 0 0 16 May 2025
Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction Yuxiao Chen Haoran Li Yuan Sui Yi Liu Yufei He Yangqiu Song Bryan Hooi AAML SILM 63 0 0 29 Apr 2025
FlowReasoner: Reinforcing Query-Level Meta-Agents Hongcheng Gao Yue Liu Yufei He Longxu Dou C. Du Zhijie Deng Bryan Hooi Min Lin Tianyu Pang AIFin LRM 31 1 0 21 Apr 2025
MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety Yahan Yang Soham Dan Shuo Li Dan Roth Insup Lee LRM 38 0 0 21 Apr 2025
X-Guard: Multilingual Guard Agent for Content Moderation Bibek Upadhayay Vahid Behzadan Ph.D 35 1 0 11 Apr 2025
Geneshift: Impact of different scenario shift on Jailbreaking LLM Tianyi Wu Zhiwei Xue Yue Liu Jiaheng Zhang Bryan Hooi See-Kiong Ng 43 0 0 10 Apr 2025
Efficient Inference for Large Reasoning Models: A Survey Yi Liu Jiaying Wu Yufei He Hongcheng Gao Hongyu Chen Baolong Bi Jiaheng Zhang Zhiqi Huang Bryan Hooi LLMAG LRM 76 8 0 29 Mar 2025
Phishsense-1B: A Technical Perspective on an AI-Powered Phishing Detection Model SE Blake 36 0 0 13 Mar 2025
Steering Dialogue Dynamics for Robustness against Multi-turn Jailbreaking Attacks Hanjiang Hu Alexander Robey Changliu Liu AAML LLMSV 49 1 0 28 Feb 2025
RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete Yuheng Ji Huajie Tan Jiayu Shi Xiaoshuai Hao Yuan Zhang ... Huaihai Lyu Xiaolong Zheng Jiaming Liu Zhongyuan Wang Shanghang Zhang 102 8 0 28 Feb 2025
APEER: Automatic Prompt Engineering Enhances Large Language Model Reranking Can Jin Hongwu Peng Shiyu Zhao Zhenting Wang Wujiang Xu Ligong Han Jiahui Zhao Kai Zhong Sanguthevar Rajasekaran Dimitris N. Metaxas KELM 44 32 0 20 Jun 2024