Steering Llama 2 via Contrastive Activation Addition

9 December 2023

Alexander Matt Turner

LLMSV

ArXiv PDF HTML

Papers citing "Steering Llama 2 via Contrastive Activation Addition"

50 / 130 papers shown

Title
Representation Engineering for Large-Language Models: Survey and Research Challenges Lukasz Bartoszcze Sarthak Munshi Bryan Sukidi Jennifer Yen Zejia Yang David Williams-King Linh Le Kosi Asuzu Carsten Maple 102 0 0 24 Feb 2025
SAE-V: Interpreting Multimodal Models for Enhanced Alignment Hantao Lou Changye Li Yalan Qin Yaodong Yang 50 1 0 22 Feb 2025
Human Preferences in Large Language Model Latent Space: A Technical Analysis on the Reliability of Synthetic Data in Voting Outcome Prediction Sarah Ball Simeon Allmendinger Frauke Kreuter Niklas Kühl 59 0 0 22 Feb 2025
Activation Steering in Neural Theorem Provers Shashank Kirtania LLMSV 216 0 0 21 Feb 2025
Analyze the Neurons, not the Embeddings: Understanding When and Where LLM Representations Align with Humans Masha Fedzechkina Eleonora Gualdoni Sinead Williamson Katherine Metcalf Skyler Seto B. Theobald 43 1 0 20 Feb 2025
Understanding and Rectifying Safety Perception Distortion in VLMs Xiaohan Zou Jian Kang George Kesidis Lu Lin 228 1 0 18 Feb 2025
Multi-Attribute Steering of Language Models via Targeted Intervention Duy Nguyen Archiki Prasad Elias Stengel-Eskin Joey Tianyi Zhou LLMSV 110 0 0 18 Feb 2025
SAIF: A Sparse Autoencoder Framework for Interpreting and Steering Instruction Following of Language Models Z. He Haiyan Zhao Yiran Qiao Fan Yang Ali Payani Jing Ma Mengnan Du LLMSV 74 5 0 17 Feb 2025
LUNAR: LLM Unlearning via Neural Activation Redirection William F. Shen Xinchi Qiu Meghdad Kurmanji Alex Iacob Lorenzo Sani Yihong Chen Nicola Cancedda Nicholas D. Lane MU 56 1 0 11 Feb 2025
Learning Task Representations from In-Context Learning Baturay Saglam Zhuoran Yang Dionysis Kalogerias Amin Karbasi 60 2 0 08 Feb 2025
Understanding and Mitigating Gender Bias in LLMs via Interpretable Neuron Editing Zeping Yu Sophia Ananiadou KELM 47 1 0 24 Jan 2025
Analyzing Fine-tuning Representation Shift for Multimodal LLMs Steering alignment Pegah Khayatan Mustafa Shukor Jayneel Parekh Matthieu Cord LLMSV 41 1 0 06 Jan 2025
ICLR: In-Context Learning of Representations Core Francisco Park Andrew Lee Ekdeep Singh Lubana Yongyi Yang Maya Okawa Kento Nishi Martin Wattenberg Hidenori Tanaka AIFin 120 3 0 29 Dec 2024
Identifying and Manipulating Personality Traits in LLMs Through Activation Engineering Rumi A. Allbert James K. Wiles Vlad Grankovsky LLMSV AI4CE 85 1 0 10 Dec 2024
Linear Probe Penalties Reduce LLM Sycophancy Henry Papadatos Rachel Freedman LLMSV 69 2 0 01 Dec 2024
A gentle push funziona benissimo: making instructed models in Italian via contrastive activation steering Daniel Scalena Elisabetta Fersini Malvina Nissim LLMSV 78 0 0 27 Nov 2024
Evaluating the Prompt Steerability of Large Language Models Erik Miehling Michael Desmond Karthikeyan N. Ramamurthy Elizabeth M. Daly Pierre Dognin Jesus Rios Djallel Bouneffouf Miao Liu LLMSV 89 3 0 19 Nov 2024
Steering Language Model Refusal with Sparse Autoencoders Kyle O'Brien David Majercak Xavier Fernandes Richard Edgar Jingya Chen Harsha Nori Dean Carignan Eric Horvitz Forough Poursabzi-Sangde LLMSV 67 10 0 18 Nov 2024
Comparing Bottom-Up and Top-Down Steering Approaches on In-Context Learning Tasks Madeline Brumley Joe Kwon David M. Krueger Dmitrii Krasheninnikov Usman Anwar LLMSV 39 6 0 11 Nov 2024
Controllable Context Sensitivity and the Knob Behind It Julian Minder Kevin Du Niklas Stoehr Giovanni Monea Chris Wendler Robert West Ryan Cotterell KELM 58 4 0 11 Nov 2024
The Semantic Hub Hypothesis: Language Models Share Semantic Representations Across Languages and Modalities Zhaofeng Wu Xinyan Velocity Yu Dani Yogatama Jiasen Lu Yoon Kim AIFin 54 13 0 07 Nov 2024
Towards Unifying Interpretability and Control: Evaluation via Intervention Usha Bhalla Suraj Srinivas Asma Ghandeharioun Himabindu Lakkaraju 42 5 0 07 Nov 2024
Extracting Unlearned Information from LLMs with Activation Steering Atakan Seyitoğlu A. Kuvshinov Leo Schwinn Stephan Günnemann MU LLMSV 43 3 0 04 Nov 2024
Improving Steering Vectors by Targeting Sparse Autoencoder Features Sviatoslav Chalnev Matthew Siu Arthur Conmy LLMSV 55 16 0 04 Nov 2024
What Features in Prompts Jailbreak LLMs? Investigating the Mechanisms Behind Attacks Nathalie Maria Kirch Constantin Weisser Severin Field Helen Yannakoudakis Stephen Casper 39 2 0 02 Nov 2024
Controlling Language and Diffusion Models by Transporting Activations P. Rodríguez Arno Blaas Michal Klein Luca Zappella N. Apostoloff Marco Cuturi Xavier Suau LLMSV 42 4 0 30 Oct 2024
Effective and Efficient Adversarial Detection for Vision-Language Models via A Single Vector Youcheng Huang Fengbin Zhu Jingkun Tang Pan Zhou Wenqiang Lei Jiancheng Lv Tat-Seng Chua AAML 36 4 0 30 Oct 2024
Attention Speaks Volumes: Localizing and Mitigating Bias in Language Models Rishabh Adiga Besmira Nushi Varun Chandrasekaran 57 0 0 29 Oct 2024
Towards Reliable Evaluation of Behavior Steering Interventions in LLMs Itamar Pres Laura Ruis Ekdeep Singh Lubana David M. Krueger LLMSV 30 5 0 22 Oct 2024
DEAN: Deactivating the Coupled Neurons to Mitigate Fairness-Privacy Conflicts in Large Language Models Chen Qian Dongrui Liu Jie Zhang Yong Liu Jing Shao 40 1 0 22 Oct 2024
Do LLMs "know" internally when they follow instructions? Juyeon Heo Christina Heinze-Deml Oussama Elachqar Shirley Ren Udhay Nallasamy Andy Miller Kwan Ho Ryan Chan Jaya Narain 51 5 0 18 Oct 2024
Debiasing Large Vision-Language Models by Ablating Protected Attribute Representations Neale Ratzlaff Matthew Lyle Olson Musashi Hinck Shao-Yen Tseng Vasudev Lal Phillip Howard 31 0 0 17 Oct 2024
Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention Weixuan Wang Minghao Wu Barry Haddow Alexandra Birch LRM 24 4 0 16 Oct 2024
Semantics-Adaptive Activation Intervention for LLMs via Dynamic Steering Vectors Weixuan Wang J. Yang Wei Peng LLMSV 30 3 0 16 Oct 2024
Improving Instruction-Following in Language Models through Activation Steering Alessandro Stolfo Vidhisha Balachandran Safoora Yousefi Eric Horvitz Besmira Nushi LLMSV 64 18 0 15 Oct 2024
Locking Down the Finetuned LLMs Safety Minjun Zhu Linyi Yang Yifan Wei Ningyu Zhang Yue Zhang 42 8 0 14 Oct 2024
Quantifying Feature Space Universality Across Large Language Models via Sparse Autoencoders Michael Lan Philip Torr Austin Meek Ashkan Khakzar David M. Krueger Fazl Barez 43 11 0 09 Oct 2024
Steering Large Language Models using Conceptors: Improving Addition-Based Activation Engineering Joris Postmus Steven Abreu LLMSV 142 1 0 09 Oct 2024
Conversate: Supporting Reflective Learning in Interview Practice Through Interactive Simulation and Dialogic Feedback Taufiq Daryanto Xiaohan Ding Lance T Wilhelm Sophia Stil Kirk McInnis Knutsen Eugenia H Rho 24 0 0 08 Oct 2024
OD-Stega: LLM-Based Near-Imperceptible Steganography via Optimized Distributions Yu-Shin Huang Peter Just Krishna Narayanan Chao Tian 49 1 0 06 Oct 2024
Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation Xinpeng Wang Chengzhi Hu Paul Röttger Barbara Plank 46 6 0 04 Oct 2024
Towards Inference-time Category-wise Safety Steering for Large Language Models Amrita Bhattacharjee Shaona Ghosh Traian Rebedea Christopher Parisien LLMSV 37 4 0 02 Oct 2024
Beyond Single Concept Vector: Modeling Concept Subspace in LLMs with Gaussian Distribution Haiyan Zhao Heng Zhao Bo Shen Ali Payani Fan Yang Mengnan Du 59 2 0 30 Sep 2024
Robust LLM safeguarding via refusal feature adversarial training L. Yu Virginie Do Karen Hambardzumyan Nicola Cancedda AAML 62 10 0 30 Sep 2024
Backtracking Improves Generation Safety Yiming Zhang Jianfeng Chi Hailey Nguyen Kartikeya Upasani Daniel M. Bikel Jason Weston Eric Michael Smith SILM 51 7 0 22 Sep 2024
Uncovering Latent Chain of Thought Vectors in Language Models Jason Zhang Scott Viteri LLMSV LRM 44 2 0 21 Sep 2024
Householder Pseudo-Rotation: A Novel Approach to Activation Editing in LLMs with Direction-Magnitude Perspective Van-Cuong Pham Thien Huu Nguyen LLMSV 43 3 0 16 Sep 2024
Representation Tuning Christopher M. Ackerman LLMSV 29 0 0 11 Sep 2024
From Yes-Men to Truth-Tellers: Addressing Sycophancy in Large Language Models with Pinpoint Tuning Wei Chen Zhen Huang Liang Xie Binbin Lin Houqiang Li ... Deng Cai Yonggang Zhang Wenxiao Wang Xu Shen Jieping Ye 57 6 0 03 Sep 2024
LLM Defenses Are Not Robust to Multi-Turn Human Jailbreaks Yet Nathaniel Li Ziwen Han Ian Steneker Willow Primack Riley Goodside Hugh Zhang Zifan Wang Cristina Menghini Summer Yue AAML MU 46 41 0 27 Aug 2024