Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable

1 March 2025

Papers citing "Safety Tax: Safety Alignment Makes Your Large Reasoning Models Less Reasonable"

9 / 9 papers shown

Title
How Should We Enhance the Safety of Large Reasoning Models: An Empirical Study Zhexin Zhang Xian Qi Loye Victor Shea-Jay Huang Junxiao Yang Qi Zhu ... Fei Mi Lifeng Shang Yingkang Wang Hongning Wang Minlie Huang LRM 19 0 0 21 May 2025
When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning Xiaoyun Zhang Jingqing Ruan Xing Ma Yawen Zhu Haodong Zhao Hao Li Jiansong Chen Ke Zeng Xunliang Cai LRM 18 0 0 21 May 2025
SAFEPATH: Preventing Harmful Reasoning in Chain-of-Thought via Early Alignment Wonje Jeung Sangyeon Yoon Minsuk Kahng Albert No LRM LLMSV 17 0 0 20 May 2025
R1dacted: Investigating Local Censorship in DeepSeek's R1 Language Model Ali Naseh Harsh Chaudhari Jaechul Roh Mingshi Wu Alina Oprea Amir Houmansadr AAML ELM 24 0 0 19 May 2025
GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning Yong-Jin Liu Shengfang Zhai Mingzhe Du Yulin Chen Tri Cao ... Xuzhao Li Kun Wang Junfeng Fang Jiaheng Zhang Bryan Hooi OffRL LRM 21 0 0 16 May 2025
Safety in Large Reasoning Models: A Survey Cheng Wang Yong-Jin Liu Yangqiu Song Duzhen Zhang Zechao Li Junfeng Fang Bryan Hooi LRM 242 2 0 24 Apr 2025
RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability Yuanhang Zhang Zihao Zeng Dongbai Li Yao Huang Zhijie Deng Yinpeng Dong LRM 45 5 0 14 Apr 2025
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models Sihang Li Yansen Wang Ruipeng Wang Zijun Yao Kun Wang An Zhang Xuben Wang Tat-Seng Chua AAML LRM 75 4 0 09 Apr 2025
Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities Weixiang Zhao Xingyu Sui Jiahe Guo Yulin Hu Yang Deng Yanyan Zhao Bing Qin Wanxiang Che Tat-Seng Chua Ting Liu ELM LRM 69 5 0 23 Mar 2025