Title
Re-Initialization Token Learning for Tool-Augmented Large Language Models Chenghao Li Liu Liu B. Yu Jiayan Qiu Yibing Zhan LLMAG CLL KELM 50 0 0 17 Jun 2025
Understand the Implication: Learning to Think for Pragmatic Understanding S. Sravanthi Kishan Maharaj Sravani Gunnu Abhijit Mishra Pushpak Bhattacharyya ReLM LRM 37 0 0 16 Jun 2025
AnimateAnyMesh: A Feed-Forward 4D Foundation Model for Text-Driven Universal Mesh Animation Zijie Wu Chaohui Yu Fan Wang Xiang Bai AI4CE 65 0 0 11 Jun 2025
Reinforcement Learning from Human Feedback with High-Confidence Safety Constraints Yaswanth Chittepu Blossom Metevier Will Schwarzer Austin Hoag S. Niekum Philip S Thomas 27 0 0 09 Jun 2025
AnnoDPO: Protein Functional Annotation Learning with Direct Preference Optimization Zixuan Jiang Renjing Xu 29 0 0 08 Jun 2025
A Survey of Generative Categories and Techniques in Multimodal Large Language Models Longzhen Han Awes Mubarak Almas Baimagambetov Nikolaos Polatidis Thar Baker LRM 72 0 0 29 May 2025
Direct Density Ratio Optimization: A Statistically Consistent Approach to Aligning Large Language Models Rei Higuchi Taiji Suzuki 126 1 0 12 May 2025
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training Zhenting Wang Guofeng Cui Kun Wan Wentian Zhao Wentian Zhao 81 4 0 13 Apr 2025
Robust Reinforcement Learning from Human Feedback for Large Language Models Fine-Tuning Kai Ye Hongyi Zhou Jin Zhu Francesco Quinzan C. Shi 97 4 0 03 Apr 2025
A Taxonomy of Linguistic Expressions That Contribute To Anthropomorphism of Language Technologies Alicia DeVrio Myra Cheng Lisa Egede Alexandra Olteanu Su Lin Blodgett 194 4 0 14 Feb 2025
Predictable Artificial Intelligence Lexin Zhou Pablo Antonio Moreno Casares Fernando Martínez-Plumed John Burden Ryan Burnell ... Seán Ó hÉigeartaigh Danaja Rutar Wout Schellaert Konstantinos Voudouris José Hernández-Orallo 150 3 0 08 Jan 2025
Utility-inspired Reward Transformations Improve Reinforcement Learning Training of Language Models Roberto-Rafael Maura-Rivero Chirag Nagpal Roma Patel Francesco Visin 143 1 0 08 Jan 2025
LLM-Personalize: Aligning LLM Planners with Human Preferences via Reinforced Self-Training for Housekeeping Robots Dongge Han Trevor A. McInroe Adam Jelley Stefano V. Albrecht Peter Bell Amos Storkey 119 12 0 31 Dec 2024
Steering Language Model Refusal with Sparse Autoencoders Kyle O'Brien David Majercak Xavier Fernandes Richard Edgar Blake Bullwinkel Jingya Chen Harsha Nori Dean Carignan Eric Horvitz Forough Poursabzi-Sangde LLMSV 169 18 0 18 Nov 2024
Diversity Helps Jailbreak Large Language Models Weiliang Zhao Daniel Ben-Levi Wei Hao Junfeng Yang Chengzhi Mao AAML 496 1 0 06 Nov 2024
On the Loss of Context-awareness in General Instruction Fine-tuning Yihan Wang Andrew Bai Nanyun Peng Cho-Jui Hsieh 384 2 0 05 Nov 2024
Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies Liwen Wang Sheng Chen Linnan Jiang Shu Pan Runze Cai Sen Yang Fei Yang 195 7 0 24 Oct 2024
Assistive AI for Augmenting Human Decision-making Natabara Máté Gyöngyössy Bernát Török Csilla Farkas Laura Lucaj Attila Menyhárd Krisztina Menyhárd-Balázs András Simonyi Patrick van der Smagt Zsolt Ződi András Lőrincz 70 0 0 18 Oct 2024
Deciphering the Chaos: Enhancing Jailbreak Attacks via Adversarial Prompt Translation Qizhang Li Xiaochen Yang W. Zuo Yiwen Guo AAML 154 1 0 15 Oct 2024
Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback Fatemeh Pesaran Zadeh Juyeon Kim Jin-Hwa Kim Gunhee Kim ALM 136 5 0 05 Oct 2024
From Pixels to Personas: Investigating and Modeling Self-Anthropomorphism in Human-Robot Dialogues Yu Li Devamanyu Hazarika Di Jin Julia Hirschberg Yang Liu 65 1 0 04 Oct 2024
TICKing All the Boxes: Generated Checklists Improve LLM Evaluation and Generation Jonathan Cook Tim Rocktaschel Jakob Foerster Dennis Aumiller Alex Wang ALM 111 16 0 04 Oct 2024
Moral Alignment for LLM Agents Elizaveta Tennant Stephen Hailes Mirco Musolesi 145 8 0 02 Oct 2024
Task-Agnostic Pre-training and Task-Guided Fine-tuning for Versatile Diffusion Planner Chenyou Fan Chenjia Bai Zhao Shan Haoran He Yang Zhang Zhen Wang 110 3 0 30 Sep 2024
Why Are My Prompts Leaked? Unraveling Prompt Extraction Threats in Customized Large Language Models Zi Liang Haibo Hu Qingqing Ye Yaxin Xiao Haoyang Li AAML ELM SILM 148 9 0 05 Aug 2024
Thorns and Algorithms: Navigating Generative AI Challenges Inspired by Giraffes and Acacias Waqar Hussain 107 1 0 16 Jul 2024
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing Huanqian Wang Yang Yue Rui Lu Jingxin Shi Andrew Zhao Shenzhi Wang Shiji Song Gao Huang LM&Ro KELM 146 0 0 11 Jul 2024
Few-shot Personalization of LLMs with Mis-aligned Responses Jaehyung Kim Yiming Yang 160 9 0 26 Jun 2024
WPO: Enhancing RLHF with Weighted Preference Optimization Wenxuan Zhou Ravi Agrawal Shujian Zhang Sathish Indurthi Sanqiang Zhao Kaiqiang Song Silei Xu Chenguang Zhu 107 20 0 17 Jun 2024
Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs S. Kadhe Farhan Ahmed Dennis Wei Nathalie Baracaldo Inkit Padhi MoMe MU 90 8 0 17 Jun 2024
Offline Regularised Reinforcement Learning for Large Language Models Alignment Pierre Harvey Richemond Yunhao Tang Daniel Guo Daniele Calandriello M. G. Azar ... Gil Shamir Rishabh Joshi Tianqi Liu Rémi Munos Bilal Piot OffRL 123 29 0 29 May 2024
Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models Chia-Yi Hsu Yu-Lin Tsai Chih-Hsun Lin Pin-Yu Chen Chia-Mu Yu Chun-ying Huang 162 56 0 27 May 2024
Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents San Kim Gary Geunbae Lee AAML 134 3 0 21 May 2024
Improving Instruction Following in Language Models through Proxy-Based Uncertainty Estimation JoonHo Lee Jae Oh Woo Juree Seok Parisa Hassanzadeh Wooseok Jang ... Hankyu Moon Wenjun Hu Yeong-Dae Kwon Taehee Lee Seungjai Min 148 2 0 10 May 2024
Talking Nonsense: Probing Large Language Models' Understanding of Adversarial Gibberish Inputs Valeriia Cherepanova James Zou AAML 102 6 0 26 Apr 2024
Improving the Capabilities of Large Language Model Based Marketing Analytics Copilots With Semantic Search And Fine-Tuning Yilin Gao Arava Sai Kumar Yancheng Li James W. Snyder AI4MH 104 2 0 16 Apr 2024
High-Dimension Human Value Representation in Large Language Models Samuel Cahyawijaya Delong Chen Yejin Bang Leila Khalatbari Bryan Wilie Ziwei Ji Etsuko Ishii Pascale Fung 221 6 0 11 Apr 2024
Aligning Diffusion Models by Optimizing Human Utility Shufan Li Konstantinos Kallidromitis Akash Gokul Yusuke Kato Kazuki Kozuka 159 34 0 06 Apr 2024
Binary Classifier Optimization for Large Language Model Alignment Seungjae Jung Gunsoo Han D. W. Nam Kyoung-Woon On 82 25 0 06 Apr 2024
Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack M. Russinovich Ahmed Salem Ronen Eldan 122 98 0 02 Apr 2024
Diffusion Model for Data-Driven Black-Box Optimization Zihao Li Hui Yuan Kaixuan Huang Chengzhuo Ni Yinyu Ye Minshuo Chen Mengdi Wang DiffM 109 13 0 20 Mar 2024
Yi: Open Foundation Models by 01.AI 01. AI Alex Young 01.AI Alex Young Bei Chen Chao Li ... Yue Wang Yuxuan Cai Zhenyu Gu Zhiyuan Liu Zonghong Dai OSLM LRM 326 577 0 07 Mar 2024
On the Challenges and Opportunities in Generative AI Laura Manduchi Kushagra Pandey Robert Bamler Ryan Cotterell Sina Daubener ... F. Wenzel Frank Wood Stephan Mandt Vincent Fortuin Vincent Fortuin 301 22 0 28 Feb 2024
RLVF: Learning from Verbal Feedback without Overgeneralization Moritz Stephan Alexander Khazatsky Eric Mitchell Annie S. Chen Sheryl Hsu Archit Sharma Chelsea Finn 91 12 0 16 Feb 2024
Active Preference Optimization for Sample Efficient RLHF Nirjhar Das Souradip Chakraborty Aldo Pacchiano Sayak Ray Chowdhury 160 22 0 16 Feb 2024
PAL: Proxy-Guided Black-Box Attack on Large Language Models Chawin Sitawarin Norman Mu David Wagner Alexandre Araujo ELM 84 35 0 15 Feb 2024
Large Language Models: A Survey Shervin Minaee Tomas Mikolov Narjes Nikzad M. Asgari-Chenaghlu R. Socher Xavier Amatriain Jianfeng Gao ALM LM&MA ELM 248 426 0 09 Feb 2024
ARGS: Alignment as Reward-Guided Search Maxim Khanov Jirayu Burapacheep Yixuan Li 130 62 0 23 Jan 2024
Understanding LLMs: A Comprehensive Overview from Training to Inference Yi-Hsueh Liu Haoyang He Tianle Han Xu-Yao Zhang Mengyuan Liu ... Xintao Hu Tuo Zhang Ning Qiang Tianming Liu Bao Ge SyDa 166 80 0 04 Jan 2024
ULMA: Unified Language Model Alignment with Human Demonstration and Point-wise Preference Tianchi Cai Xierui Song Jiyan Jiang Fei Teng Jinjie Gu Guannan Zhang ALM 94 5 0 05 Dec 2023