Dialectical Alignment: Resolving the Tension of 3H and Security Threats
of LLMs

Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs

30 March 2024

Muhammad Asif Ali

Lijie Hu

ArXiv (abs)PDF HTML

Papers citing "Dialectical Alignment: Resolving the Tension of 3H and Security Threats of LLMs"

6 / 6 papers shown

Title
Fraud-R1 : A Multi-Round Benchmark for Assessing the Robustness of LLM Against Augmented Fraud and Phishing Inducements Shu Yang Shenzhe Zhu Zeyu Wu Keyu Wang Junchi Yao Junchao Wu Lijie Hu Mengdi Li Derek F. Wong Di Wang 87 9 0 18 Feb 2025
Understanding Reasoning in Chain-of-Thought from the Hopfieldian View Lijie Hu Liang Liu Shu Yang Xin Chen Zhen Tan Muhammad Asif Ali Mengdi Li Di Wang LRM 145 5 0 04 Oct 2024
MQA-KEAL: Multi-hop Question Answering under Knowledge Editing for Arabic Language Muhammad Asif Ali Nawal Daftardar Mutayyaba Waheed Jianbin Qin Di Wang KELM 80 6 0 18 Sep 2024
Leveraging Logical Rules in Knowledge Editing: A Cherry on the Top Keyuan Cheng Muhammad Asif Ali Shu Yang Gang Lin Yuxuan Zhai Haoyang Fei Ke Xu Lu Yu Lijie Hu Di Wang KELM 122 11 0 24 May 2024
Editable Concept Bottleneck Models Lijie Hu Chenyang Ren Zhengyu Hu Cheng-Long Wang Di Wang Hui Xiong Jingfeng Zhang Di Wang 113 7 0 24 May 2024
API Is Enough: Conformal Prediction for Large Language Models Without Logit-Access Jiayuan Su Jing Luo Hongwei Wang Lu Cheng 247 23 0 02 Mar 2024