Title
LEGO: Language Model Building Blocks Shrenik Bhansali Alwin Jin Tyler Lizzo Larry Heck 35 0 0 23 Oct 2024
MiLoRA: Efficient Mixture of Low-Rank Adaptation for Large Language Models Fine-tuning Jingfan Zhang Yi Zhao Dan Chen Xing Tian Huanran Zheng Wei Zhu MoE 136 17 0 23 Oct 2024
Evaluating Explanations Through LLMs: Beyond Traditional User Studies Francesco Bombassei De Bona Gabriele Dominici Tim Miller Marc Langheinrich M. Gjoreski 63 6 0 23 Oct 2024
MIA-DPO: Multi-Image Augmented Direct Preference Optimization For Large Vision-Language Models Ziyu Liu Yuhang Zang Xiaoyi Dong Pan Zhang Yuhang Cao Haodong Duan Zeang Sheng Yuanjun Xiong Dahua Lin Jiaqi Wang 113 12 0 23 Oct 2024
Scaling Diffusion Language Models via Adaptation from Autoregressive Models Shansan Gong Shivam Agarwal Yizhe Zhang Jiacheng Ye Lin Zheng ... Peilin Zhao W. Bi Jiawei Han Hao Peng Dianbo Sui AI4CE 140 27 0 23 Oct 2024
Asynchronous RLHF: Faster and More Efficient Off-Policy RL for Language Models Michael Noukhovitch Shengyi Huang Sophie Xhonneux Arian Hosseini Rishabh Agarwal Rameswar Panda OffRL 190 11 0 23 Oct 2024
Towards Understanding the Fragility of Multilingual LLMs against Fine-Tuning Attacks Samuele Poppi Zheng-Xin Yong Yifei He Bobbie Chern Han Zhao Aobo Yang Jianfeng Chi AAML 186 21 0 23 Oct 2024
Process Supervision-Guided Policy Optimization for Code Generation Ning Dai Zheng Wu Renjie Zheng Ziyun Wei Wenlei Shi Xing Jin Guanlin Liu Chen Dun Liang Huang Lin Yan 125 11 0 23 Oct 2024
Markov Chain of Thought for Efficient Mathematical Reasoning Wen Yang Kai Fan Minpeng Liao LRM 60 5 0 23 Oct 2024
CLEAR: Character Unlearning in Textual and Visual Modalities Alexey Dontsov Dmitrii Korzh Alexey Zhavoronkin Boris Mikheev Denis Bobkov Aibek Alanov Oleg Y. Rogov Ivan Oseledets Elena Tutubalina MU AILaw VLM 193 5 0 23 Oct 2024
Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models Muhan Lin Shuyang Shi Yue (Sophie) Guo Behdad Chalaki Vaishnav Tadiparthi Ehsan Moradi-Pari Simon Stepputtis Joseph Campbell Katia Sycara 71 2 0 22 Oct 2024
Are Large Language Models Ready for Travel Planning? Ruiping Ren Xing Yao Shu Cole Haining Wang 97 1 0 22 Oct 2024
Automated Spinal MRI Labelling from Reports Using a Large Language Model Robin Y. Park Rhydian Windsor A. Jamaludin Andrew Zisserman 56 1 0 22 Oct 2024
From Attention to Activation: Unravelling the Enigmas of Large Language Models Prannay Kaul Chengcheng Ma Ismail Elezi Jiankang Deng 141 2 0 22 Oct 2024
Optimal Design for Reward Modeling in RLHF Antoine Scheid Etienne Boursier Alain Durmus Michael I. Jordan Pierre Ménard Eric Moulines Michal Valko OffRL 169 9 0 22 Oct 2024
Order Matters: Exploring Order Sensitivity in Multimodal Large Language Models Zhijie Tan Xu Chu Weiping Li Tong Mo 53 2 0 22 Oct 2024
IPL: Leveraging Multimodal Large Language Models for Intelligent Product Listing Kang Chen Qingheng Zhang Chengbao Lian Yixin Ji Xuwei Liu Shuguang Han Guoqiang Wu Fei Huang Jufeng Chen 68 2 0 22 Oct 2024
Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning Zongmeng Zhang Yufeng Shi Jinhua Zhu Wengang Zhou Xiang Qi Peng Zhang Haoyang Li RALM HILM 48 0 0 22 Oct 2024
PerspectiveNet: Multi-View Perception for Dynamic Scene Understanding Vinh Nguyen 3DV 36 0 0 22 Oct 2024
Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration Qintong Li Jiahui Gao Sheng Wang Renjie Pi Xueliang Zhao Chuan Wu Xin Jiang Zhiyu Li Lingpeng Kong SyDa 105 3 0 22 Oct 2024
Chatting with Bots: AI, Speech Acts, and the Edge of Assertion Iwan Williams Tim Bayne 82 1 0 22 Oct 2024
Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective Pietro Bernardelle Gianluca Demartini 24 2 0 22 Oct 2024
Magnetic Preference Optimization: Achieving Last-iterate Convergence for Language Model Alignment Mingzhi Wang Chengdong Ma Qizhi Chen Linjian Meng Yang Han Jiancong Xiao Zhaowei Zhang Jing Huo Weijie Su Yaodong Yang 158 9 0 22 Oct 2024
Self-calibration for Language Model Quantization and Pruning Miles Williams G. Chrysostomou Nikolaos Aletras MQ 501 0 0 22 Oct 2024
Science Out of Its Ivory Tower: Improving Accessibility with Reinforcement Learning Haining Wang Jason Clark Hannah McKelvey Leila Sterman Zheng Gao Zuoyu Tian Sandra Kübler Xiaozhong Liu 121 1 0 22 Oct 2024
Conflict-Aware Adversarial Training Zhiyu Xue Haohan Wang Yao Qin Ramtin Pedarsani AAML 72 0 0 21 Oct 2024
How Can We Diagnose and Treat Bias in Large Language Models for Clinical Decision-Making? Kenza Benkirane Jackie Kay Maria Perez-Ortiz 82 2 0 21 Oct 2024
Combining Theory of Mind and Kindness for Self-Supervised Human-AI Alignment Joshua T. S. Hewson 66 0 0 21 Oct 2024
Pre-training Distillation for Large Language Models: A Design Space Exploration Hao Peng Xin Lv Yushi Bai Zijun Yao Jing Zhang Lei Hou Juanzi Li 81 4 0 21 Oct 2024
RM-Bench: Benchmarking Reward Models of Language Models with Subtlety and Style Yantao Liu Zijun Yao Rui Min Yixin Cao Lei Hou Juanzi Li OffRL ALM 143 42 0 21 Oct 2024
ComPO: Community Preferences for Language Model Personalization Sachin Kumar Chan Young Park Yulia Tsvetkov Noah A. Smith Hannaneh Hajishirzi 93 8 0 21 Oct 2024
The effect of fine-tuning on language model toxicity Will Hawkins Brent Mittelstadt Chris Russell 76 5 0 21 Oct 2024
Mislabeled examples detection viewed as probing machine learning models: concepts, survey and extensive benchmark Thomas George Pierre Nodet A. Bondu Vincent Lemaire VLM 82 1 0 21 Oct 2024
Who's Who: Large Language Models Meet Knowledge Conflicts in Practice Quang Hieu Pham Hoang Ngo Anh Tuan Luu Dat Quoc Nguyen RALM HILM 91 9 0 21 Oct 2024
Understanding and Alleviating Memory Consumption in RLHF for LLMs Jin Zhou Hanmei Yang Steven Tang Mingcan Xiang Hui Guan Tongping Liu 91 0 0 21 Oct 2024
On The Global Convergence Of Online RLHF With Neural Parametrization Mudit Gaur Amrit Singh Bedi Raghu Pasupathy Vaneet Aggarwal 87 1 0 21 Oct 2024
BIG5-CHAT: Shaping LLM Personalities Through Training on Human-Grounded Data Wenkai Li Jiarui Liu Andy Liu Xuhui Zhou Mona Diab Maarten Sap 184 11 0 21 Oct 2024
Opportunities and Challenges of Generative-AI in Finance Akshar Prabhu Desai Ganesh Satish Mallya Mohammad Luqman Tejasvi Ravi Nithya Kota Pranjul Yadav AIFin 127 4 0 21 Oct 2024
A Comprehensive Evaluation of Cognitive Biases in LLMs Simon Malberg Roman Poletukhin Carolin M. Schuster Georg Groh ELM 104 7 0 20 Oct 2024
Faster-GCG: Efficient Discrete Optimization Jailbreak Attacks against Aligned Large Language Models Xiao-Li Li Zhuhong Li Qiongxiu Li Bingze Lee Jinghao Cui Xiaolin Hu AAML 58 5 0 20 Oct 2024
A Survey of Hallucination in Large Visual Language Models Wei Lan Wenyi Chen Qingfeng Chen Shirui Pan Huiyu Zhou Yi-Lun Pan LRM 98 6 0 20 Oct 2024
Redefining Proactivity for Information Seeking Dialogue Jing Yang Lee Seokhwan Kim Kartik Mehta Jiun-Yu Kao Yu-Hsiang Lin Arpit Gupta 99 0 0 20 Oct 2024
Mitigating Forgetting in LLM Supervised Fine-Tuning and Preference Learning H. Fernando Han Shen Parikshit Ram Yi Zhou Horst Samulowitz Nathalie Baracaldo Tianyi Chen CLL 174 4 0 20 Oct 2024
M-RewardBench: Evaluating Reward Models in Multilingual Settings Srishti Gureja Lester James V. Miranda Shayekh Bin Islam Rishabh Maheshwary Drishti Sharma Gusti Winata Nathan Lambert Sebastian Ruder Sara Hooker Marzieh Fadaee LRM 152 24 0 20 Oct 2024
Modality-Fair Preference Optimization for Trustworthy MLLM Alignment Songtao Jiang Yan Zhang Ruizhe Chen Yeying Jin Zuozhu Liu Qinglin He Yang Feng Jian Wu Zuozhu Liu MoE MLLM 103 12 0 20 Oct 2024
Contextual Augmented Multi-Model Programming (CAMP): A Hybrid Local-Cloud Copilot Framework Yuchen Wang Shangxin Guo C. Tan 92 0 0 20 Oct 2024
BRIEF: Bridging Retrieval and Inference for Multi-hop Reasoning via Compression Yuankai Li Jia-Chen Gu Di Wu Kai-Wei Chang Nanyun Peng RALM MQ 78 0 0 20 Oct 2024
An Electoral Approach to Diversify LLM-based Multi-Agent Collective Decision-Making Xiutian Zhao Ke Wang Wei Peng 102 4 0 19 Oct 2024
On Designing Effective RL Reward at Training Time for LLM Reasoning Jiaxuan Gao Shusheng Xu Wenjie Ye Weilin Liu Chuyi He Wei Fu Zhiyu Mei Guangju Wang Yi Wu OffRL LRM 150 23 0 19 Oct 2024
GDPO: Learning to Directly Align Language Models with Diversity Using GFlowNets Oh Joon Kwon Daiki E. Matsunaga Kee-Eung Kim AI4CE 55 1 0 19 Oct 2024