Challenges in Ensuring AI Safety in DeepSeek-R1 Models: The Shortcomings of Reinforcement Learning Strategies

28 January 2025

Papers citing "Challenges in Ensuring AI Safety in DeepSeek-R1 Models: The Shortcomings of Reinforcement Learning Strategies"

5 / 5 papers shown

Title
Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model Xinyue Lou You Li Jinan Xu Xiangyu Shi Chong Chen Kaiyu Huang LRM 103 0 0 10 May 2025
SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models Sihang Li Yansen Wang Ruipeng Wang Zijun Yao Kun Wang An Zhang Xiang Wang Tat-Seng Chua AAML LRM 115 10 0 09 Apr 2025
Trade-offs in Large Reasoning Models: An Empirical Analysis of Deliberative and Adaptive Reasoning over Foundational Capabilities Weixiang Zhao Xingyu Sui Jiahe Guo Yulin Hu Yang Deng Yanyan Zhao Bing Qin Wanxiang Che Tat-Seng Chua Ting Liu ELM LRM 132 9 0 23 Mar 2025
Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings Zonghao Ying Guangyi Zheng Yongxin Huang Deyue Zhang Wenxin Zhang Quanchen Zou Aishan Liu Xianglong Liu Dacheng Tao ELM 158 13 0 19 Mar 2025
Towards Robust ESG Analysis Against Greenwashing Risks: Aspect-Action Analysis with Cross-Category Generalization Keane Ong Rui Mao Deeksha Varshney Min Zhang G. Mengaldo 166 0 0 20 Feb 2025