Controlling Large Language Model Agents with Entropic Activation
Steering

Controlling Large Language Model Agents with Entropic Activation Steering

1 June 2024

Marc G. Bellemare

Papers citing "Controlling Large Language Model Agents with Entropic Activation Steering"

11 / 11 papers shown

Title
Representation Engineering for Large-Language Models: Survey and Research Challenges Lukasz Bartoszcze Sarthak Munshi Bryan Sukidi Jennifer Yen Zejia Yang David Williams-King Linh Le Kosi Asuzu Carsten Maple 102 0 0 24 Feb 2025
Preventing Rogue Agents Improves Multi-Agent Collaboration Ohav Barbi Ori Yoran Mor Geva 55 1 0 09 Feb 2025
Controlling Language and Diffusion Models by Transporting Activations P. Rodríguez Arno Blaas Michal Klein Luca Zappella N. Apostoloff Marco Cuturi Xavier Suau LLMSV 42 5 0 30 Oct 2024
Improving Instruction-Following in Language Models through Activation Steering Alessandro Stolfo Vidhisha Balachandran Safoora Yousefi Eric Horvitz Besmira Nushi LLMSV 64 18 0 15 Oct 2024
Programming Refusal with Conditional Activation Steering Bruce W. Lee Inkit Padhi Karthikeyan N. Ramamurthy Erik Miehling Pierre Dognin Manish Nagireddy Amit Dhurandhar LLMSV 108 15 0 06 Sep 2024
Do LLM Agents Have Regret? A Case Study in Online Learning and Games Chanwoo Park Xiangyu Liu Asuman Ozdaglar Kaiqing Zhang 80 17 0 25 Mar 2024
Can large language models explore in-context? Akshay Krishnamurthy Keegan Harris Dylan J. Foster Cyril Zhang Aleksandrs Slivkins LM&Ro LLMAG LRM 131 23 0 22 Mar 2024
Emergent World Models and Latent Variable Estimation in Chess-Playing Language Models Adam Karvonen 40 19 0 21 Mar 2024
ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL Yifei Zhou Andrea Zanette Jiayi Pan Sergey Levine Aviral Kumar 65 51 0 29 Feb 2024
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 275 2,549 0 06 Oct 2022
Efficient Estimation of Word Representations in Vector Space Tomas Mikolov Kai Chen G. Corrado J. Dean 3DV 317 31,297 0 16 Jan 2013