Large Language Model Steering Vectors

LLMSV

Large Language Model Steering Vectors are techniques used to guide or control the behavior of large language models by directly manipulating their internal representations. This approach, part of the broader representation engineering framework, involves identifying and modifying activation vectors within the model to achieve desired outputs without requiring additional training or fine-tuning.

Neighbor communities

51015

Featured Papers

0 / 0 papers shown

All papers

50 / 1,233 papers shown

DTEA: A Dual-Topology Elastic Actuator Enabling Real-Time Switching Between Series and Parallel Compliance Vishal Ramesh Aman Singh Shishir Kolathaya LLMSV 1 0 0 17 Apr 2026
Predicting Where Steering Vectors Succeed Jayadev Billa LLMSV FAtt 1 0 0 16 Apr 2026
FineSteer: A Unified Framework for Fine-Grained Inference-Time Steering in Large Language Models Zixuan Weng Jinghuai Zhang Kunlin Cai Ying Li Peiran Wang Yuan Tian LLMSV 1 0 0 16 Apr 2026
Hallucination as Trajectory Commitment: Causal Evidence for Asymmetric Attractor Dynamics in Transformer Generation G. Aytug Akarlar HILM LLMSV LRM 1 0 0 16 Apr 2026
LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning Bowen Ping Zijun Chen Tingfeng Hui Qize Yu Chenxuan Li Junchi Yan Baobao Chang OffRL KELM LLMSV 9 0 0 16 Apr 2026
Psychological Steering of Large Language Models Leonardo Blas Robin Jia Emilio Ferrara LLMSV 5 0 0 15 Apr 2026
Rhetorical Questions in LLM Representations: A Linear Probing Study Louie Hong Yao Vishesh Anand Yuan Zhuang Tianyu Jiang LLMSV 20 0 0 15 Apr 2026
From Weights to Activations: Is Steering the Next Frontier of Adaptation? Simon Ostermann Daniil Gurgurov Tanja Baeumel Michael A. Hedderich Sebastian Lapuschkin Wojciech Samek Vera Schmitt LLMSV 16 0 0 15 Apr 2026
Beyond Static Personas: Situational Personality Steering for Large Language Models Zesheng Wei Mengxiang Li Zilei Wang Yang Deng LLMSV 11 0 0 15 Apr 2026
SafeHarness: Lifecycle-Integrated Security Architecture for LLM-based Agent Deployment Xixun Lin Yang Liu Yancheng Chen Yongxuan Wu Yucheng Ning ... Shun Zhang Bin Chong Chuan Zhou Yanan Cao Li Guo LLMSV 9 0 0 15 Apr 2026
Stability Principle Underlying Passive Dynamic Walking of Rimless Wheel Fumihiko Asano LLMSV 9 0 0 15 Apr 2026
Linear Probe Accuracy Scales with Model Size and Benefits from Multi-Layer Ensembling Erik Nordby Tasha Pais Aviel Parrack MoE ELM LLMSV 17 0 0 15 Apr 2026
Hessian-Enhanced Token Attribution (HETA): Interpreting Autoregressive LLMs Vishal Pramanik Maisha Maliha Nathaniel D. Bastian Sumit Kumar Jha LLMSV 10 0 0 14 Apr 2026
Safety Training Modulates Harmful Misalignment Under On-Policy RL, But Direction Depends on Environment Design Leon Eshuijs Shihan Wang Antske Fokkens LLMSV 8 0 0 14 Apr 2026
HazardArena: Evaluating Semantic Safety in Vision-Language-Action Models Zixing Chen Yifeng Gao Li Wang Yunhan Zhao Yi Liu ... Xiang Zheng Zuxuan Wu Cong Wang Xingjun Ma Yu-Gang Jiang LLMSV ELM 12 0 0 14 Apr 2026
Compiling Activation Steering into Weights via Null-Space Constraints for Stealthy Backdoors Rui Yin Tianxu Han Naen Xu Changjiang Li Ping He ... Jun Wang Zhihui Fu Tianyu Du Jinbao Li Shouling Ji LLMSV 12 0 0 14 Apr 2026
Identity as Attractor: Geometric Evidence for Persistent Agent Architecture in LLM Activation Space Vladimir Vasilenko LLMSV 10 0 0 13 Apr 2026
Psychological Concept Neurons: Can Neural Control Bias Probing and Shift Generation in LLMs? Yuto Harada Hiro Taiyo Hamada MILM KELM LLMSV 25 0 0 13 Apr 2026
Playing Along: Learning a Double-Agent Defender for Belief Steering via Theory of Mind Hanqi Xiao Vaidehi Patil Zaid Khan Hyunji Lee Elias Stengel-Eskin Mohit Bansal AAML LLMAG LLMSV AI4CE LRM 43 0 0 13 Apr 2026
LASA: Language-Agnostic Semantic Alignment at the Semantic Bottleneck for LLM Safety Junxiao Yang Haoran Liu Jinzhe Tu Jiale Cheng Zhexin Zhang ... Jialing Tao Hui Xue Hongning Wang Han Qiu Minlie Huang ALM ELM LLMSV 17 0 0 13 Apr 2026
From Attribution to Action: A Human-Centered Application of Activation Steering Tobias Labarta Maximilian Dreyer Katharina Weitz Wojciech Samek Sebastian Lapuschkin LLMSV LRM 23 0 0 13 Apr 2026
Modeling, Analysis and Activation of Planar Viscoelastically-combined Rimless Wheels Fumihiko Asano Yuxuan Xiang Yanqiu Zheng Cong Yan LLMSV 10 0 0 13 Apr 2026
Persona Non Grata: Single-Method Safety Evaluation Is Incomplete for Persona-Imbued LLMs Wenkai Li Fan Yang Shaunak A. Mehta Koichi Onoue SILM LLMSV 11 0 0 13 Apr 2026
Latent Instruction Representation Alignment: defending against jailbreaks, backdoors and undesired knowledge in LLMs Eric Easley Sebastian Farquhar MU CLL LLMSV 37 0 0 12 Apr 2026
Trajectory-based actuator identification via differentiable simulation Vyacheslav Kovalev Ekaterina Chaikovskaia Egor Davydenko Roman Gorbachev LLMSV 23 0 0 11 Apr 2026
Jailbreaking the Matrix: Nullspace Steering for Controlled Model Subversion Vishal Pramanik Maisha Maliha Susmit Jha Sumit Kumar Jha AAML LLMSV 20 0 0 11 Apr 2026
A Relay a Day Keeps the AirTag Away: Practical Relay Attacks on Apple's AirTags Gabriel K. Gegenhuber Leonid Liadveikin Florian Holzbauer Sebastian Strobl LLMSV 10 0 0 11 Apr 2026
CoSToM:Causal-oriented Steering for Intrinsic Theory-of-Mind Alignment in Large Language Models Mengfan Li Xuanhua Shi Yang Deng LLMSV LRM 8 0 0 11 Apr 2026
Steered LLM Activations are Non-Surjective Aayush Mishra Daniel Khashabi Anqi Liu LLMSV 11 0 0 10 Apr 2026
On Feedback Speed Control for a Planar Tracking Xincheng Li Tengyue Liu Udit Halder LLMSV 15 0 0 10 Apr 2026
Unreal Thinking: Chain-of-Thought Hijacking via Two-stage Backdoor Wenhan Chang Tianqing Zhu Ping Xiong Faqian Guan Wanlei Zhou LLMSV LRM AI4CE 19 0 0 10 Apr 2026
SHIFT: Steering Hidden Intermediates in Flow Transformers Nina Konovalova Andrey Kuznetsov Aibek Alanov LLMSV 22 0 0 10 Apr 2026
Dictionary-Aligned Concept Control for Safeguarding Multimodal LLMs Jinqi Luo Jinyu Yang Tal Neiman Lei Fan Bing Yin Son Tran Mubarak Shah René Vidal KELM LLMSV 32 0 0 10 Apr 2026
The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training Rui Zhang Hongwei Li Yun Shen Xinyue Shen Wenbo Jiang Guowen Xu Yang Liu Michael Backes Yang Zhang MoMe LLMSV 38 0 0 10 Apr 2026
$Complexity of Classical Acceleration for $\ell_1$-Regularized PageRank$ Complexity of Classical Acceleration for $\ell_1$ -Regularized PageRank Kimon Fountoulakis David Martínez-Rubio LLMSV 18 0 0 10 Apr 2026
Complementary Filtering on SO(3) for Attitude Estimation with Scalar Measurements Alessandro Melis Soulaimane Berkane Tarek Hamel LLMSV 19 0 0 10 Apr 2026
Mitigating Entangled Steering in Large Vision-Language Models for Hallucination Reduction Yuanhong Zhang Zhaoyang Wang Xin Zhang Weizhan Zhang Joey Tianyi Zhou MLLM LLMSV VLM 42 0 0 10 Apr 2026
Activation Steering for Aligned Open-ended Generation without Sacrificing Coherence Niklas Herbster Martin Zborowski Alberto Tosato Gauthier Gidel Tommaso Tosato LLMSV 13 0 0 10 Apr 2026
Dynamic Attentional Context Scoping: Agent-Triggered Focus Sessions for Isolated Per-Agent Steering in Multi-Agent LLM Orchestration Nickson Patel LLMSV 29 0 0 10 Apr 2026
Revisiting Anisotropy in Language Transformers: The Geometry of Learning Dynamics Raphael Bernas Fanny Jourdan Antonin Poché Céline Hudelot MILM LLMSV AI4CE 15 0 0 09 Apr 2026
What Drives Representation Steering? A Mechanistic Case Study on Steering Refusal Stephen Cheng Sarah Wiegreffe Dinesh Manocha LLMSV 24 0 0 09 Apr 2026
Efficient Provably Secure Linguistic Steganography via Range Coding Ruiyi Yan Yugo Murawaki LLMSV 30 0 0 09 Apr 2026
Linear Representations of Hierarchical Concepts in Language Models Masaki Sakata Benjamin Heinzerling Takumi Ito Sho Yokoi Kentaro Inui MILM LLMSV 24 0 0 09 Apr 2026
The Impact of Steering Large Language Models with Persona Vectors in Educational Applications Yongchao Wu Aron Henriksson LLMSV 41 0 0 08 Apr 2026
Continuous Interpretive Steering for Scalar Diversity Ye-eun Cho LLMSV 16 0 0 08 Apr 2026
Guiding Symbolic Execution with Static Analysis and LLMs for Vulnerability Discovery Md Shafiuzzaman Achintya Desai Wenbo Guo Tevfik Bultan ELM LLMSV 32 0 0 07 Apr 2026
Distributed Interpretability and Control for Large Language Models Dev Arpan Desai Shaoyi Huang Zining Zhu MoE LLMSV 31 0 0 07 Apr 2026
LLM Reasoning as Trajectories: Step-Specific Representation Geometry and Correctness Signals Lihao Sun Hang Dong Bo Qiao Qingwei Lin Dongmei Zhang Saravan Rajmohan AIFin LLMSV LRM 36 0 0 07 Apr 2026
Can You Trust the Vectors in Your Vector Database? Black-Hole Attack from Embedding Space Defects Hanxi Li Jianan Zhou Jiale Lao Yibo Wang Zhengmao Ye Yang Cao Junfen Wang Mingjie Tang AAML LLMSV 27 0 0 07 Apr 2026
Training Without Orthogonalization, Inference With SVD: A Gradient Analysis of Rotation Representations Chris Choy LLMSV 25 0 0 07 Apr 2026

Loading #Papers per Month with "LLMSV"

Past speakers

Name (-)

Top Contributors

Name (-)

Top Organizations at ResearchTrend.AI

Name (-)

Social Events

Date	Location	Event
No social events available