Refusal Direction is Universal Across Safety-Aligned Languages

Refusal Direction is Universal Across Safety-Aligned Languages

22 May 2025

Hinrich Schutze

Papers citing "Refusal Direction is Universal Across Safety-Aligned Languages"

15 / 15 papers shown

Title
Crosslingual Reasoning through Test-Time Scaling Zheng-Xin Yong Muhammad Farid Adilazuarda Jonibek Mansurov Ruochen Zhang Niklas Muennighoff Carsten Eickhoff Genta Indra Winata Julia Kreutzer Stephen H. Bach Alham Fikri Aji LRM ELM 277 8 0 08 May 2025
Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models Mingyang Wang Heike Adel Lukas Lange Yihong Liu Ercong Nie Jannik Strötgen Hinrich Schütze HILM 74 5 0 05 Apr 2025
The Hidden Space of Safety: Understanding Preference-Tuned LLMs in Multilingual context Nikhil Verma Manasa Bharadwaj 48 2 0 03 Apr 2025
Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation Xinpeng Wang Chengzhi Hu Paul Röttger Barbara Plank 89 9 0 04 Oct 2024
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training Youliang Yuan Wenxiang Jiao Wenxuan Wang Jen-tse Huang Jiahao Xu Tian Liang Pinjia He Zhaopeng Tu 51 24 0 12 Jul 2024
Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment Orgest Xhelili Yihong Liu Hinrich Schütze 56 7 0 28 Jun 2024
A Cross-Language Investigation into Jailbreak Attacks in Large Language Models Jie Li Yi Liu Chongyang Liu Ling Shi Xiaoning Ren Yaowen Zheng Yang Liu Yinxing Xue AAML 40 26 0 30 Jan 2024
Universal and Transferable Adversarial Attacks on Aligned Language Models Andy Zou Zifan Wang Nicholas Carlini Milad Nasr J. Zico Kolter Matt Fredrikson 133 1,376 0 27 Jul 2023
On the Language Neutrality of Pre-trained Multilingual Representations Jindrich Libovický Rudolf Rosa Alexander Fraser 36 103 0 09 Apr 2020
Unsupervised Cross-lingual Representation Learning at Scale Alexis Conneau Kartikay Khandelwal Naman Goyal Vishrav Chaudhary Guillaume Wenzek Francisco Guzmán Edouard Grave Myle Ott Luke Zettlemoyer Veselin Stoyanov 106 6,454 0 05 Nov 2019
On the Cross-lingual Transferability of Monolingual Representations Mikel Artetxe Sebastian Ruder Dani Yogatama 58 786 0 25 Oct 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 259 11,979 0 27 Aug 2019
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 472 93,936 0 11 Oct 2018
Word Translation Without Parallel Data Alexis Conneau Guillaume Lample MarcÁurelio Ranzato Ludovic Denoyer Hervé Jégou 249 1,646 0 11 Oct 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 211 129,831 0 12 Jun 2017