Title
Process Reinforcement through Implicit Rewards Ganqu Cui Lifan Yuan Ziyi Wang Hanbin Wang Wendi Li ... Yu Cheng Zhiyuan Liu Maosong Sun Bowen Zhou Ning Ding OffRL LRM 199 103 0 03 Feb 2025
Multimodal Inverse Attention Network with Intrinsic Discriminant Feature Exploitation for Fake News Detection Tianlin Zhang En Yu Yi Shao Shuai Li 181 0 0 03 Feb 2025
Classic4Children: Adapting Chinese Literary Classics for Children with Large Language Model Jiali Chen Xusen Hei Yuqi Xue Zihan Wu Jiayuan Xie Yi Cai AI4Ed 167 2 0 03 Feb 2025
Process-Supervised Reinforcement Learning for Code Generation Yufan Ye Ting Zhang Wenbin Jiang Hua Huang OffRL LRM SyDa 122 1 0 03 Feb 2025
Fine-Tuning Discrete Diffusion Models with Policy Gradient Methods Oussama Zekri Nicolas Boullé DiffM 157 4 0 03 Feb 2025
Evaluation of Large Language Models via Coupled Token Generation N. C. Benz Stratis Tsirtsis Eleni Straitouri Ivi Chatzi Ander Artola Velasco Suhas Thejaswi Manuel Gomez Rodriguez 112 1 0 03 Feb 2025
Efficient Language Modeling for Low-Resource Settings with Hybrid RNN-Transformer Architectures Gabriel Lindenmaier Sean Papay Sebastian Padó 163 0 0 02 Feb 2025
Agent-Based Uncertainty Awareness Improves Automated Radiology Report Labeling with an Open-Source Large Language Model Hadas Ben-Atya N. Gavrielov Zvi Badash G. Focht R. Cytter-Kuint Talar Hagopian Dan Turner M. Freiman 93 0 0 02 Feb 2025
CollabLLM: From Passive Responders to Active Collaborators Shirley Wu Michel Galley Baolin Peng Hao Cheng Gavin Li Yao Dou Weixin Cai James Zou J. Leskovec Jianfeng Gao 135 0 0 02 Feb 2025
Refining Alignment Framework for Diffusion Models with Intermediate-Step Preference Ranking Jie Ren Yuhang Zhang Dongrui Liu Xiaopeng Zhang Qi Tian 84 0 0 01 Feb 2025
PM-MOE: Mixture of Experts on Private Model Parameters for Personalized Federated Learning Yu Feng Yangli-ao Geng Yifan Zhu Zongfu Han Xie Yu Kaiwen Xue Haoran Luo Mengyang Sun Guangwei Zhang Meina Song FedML MoE 143 0 0 01 Feb 2025
Imitation Game for Adversarial Disillusion with Multimodal Generative Chain-of-Thought Role-Play Ching-Chun Chang Fan-Yun Chen Shih-Hong Gu Kai Gao Hanrui Wang Isao Echizen AAML 518 0 0 31 Jan 2025
RLS3: RL-Based Synthetic Sample Selection to Enhance Spatial Reasoning in Vision-Language Models for Indoor Autonomous Perception Joshua R. Waite Md Zahid Hasan Qisai Liu Zhanhong Jiang Chinmay Hegde Soumik Sarkar OffRL SyDa 295 1 0 31 Jan 2025
Memory-Efficient Fine-Tuning of Transformers via Token Selection Antoine Simoulin Namyong Park Xiaoyi Liu Grey Yang 205 1 0 31 Jan 2025
The Energy Loss Phenomenon in RLHF: A New Perspective on Mitigating Reward Hacking Yuchun Miao Sen Zhang Liang Ding Yuqi Zhang Lefei Zhang Dacheng Tao 190 5 0 31 Jan 2025
Rethinking Early Stopping: Refine, Then Calibrate Eugene Berta David Holzmüller Michael I. Jordan Francis Bach 145 1 0 31 Jan 2025
Ensembles of Low-Rank Expert Adapters Yinghao Li Vianne Gao Chao Zhang MohamadAli Torkamani 173 0 0 31 Jan 2025
GuardReasoner: Towards Reasoning-based LLM Safeguards Yue Liu Hongcheng Gao Shengfang Zhai Jun Xia Tianyi Wu Zhiwei Xue Yuxiao Chen Kenji Kawaguchi Jiaheng Zhang Bryan Hooi AI4TS LRM 286 26 0 30 Jan 2025
Panacea: Mitigating Harmful Fine-tuning for Large Language Models via Post-fine-tuning Perturbation Yun Wang Tiansheng Huang Li Shen Huanjin Yao Haotian Luo Rui Liu Naiqiang Tan Jiaxing Huang Dacheng Tao AAML MoMe CLL 214 4 0 30 Jan 2025
Diverse Preference Optimization Jack Lanchantin Angelica Chen Shehzaad Dhuliawala Ping Yu Jason Weston Sainbayar Sukhbaatar Ilia Kulikov 270 4 0 30 Jan 2025
Can Generative LLMs Create Query Variants for Test Collections? An Exploratory Study Marwah Alaofi Luke Gallagher Mark Sanderson Falk Scholer Paul Thomas 98 38 0 29 Jan 2025
Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization Zishun Yu Tengyu Xu Di Jin Karthik Abinav Sankararaman Yun He ... Eryk Helenowski Chen Zhu Sinong Wang Hao Ma Han Fang LRM 242 11 0 29 Jan 2025
Improving Your Model Ranking on Chatbot Arena by Vote Rigging Rui Min Tianyu Pang Chao Du Qian Liu Minhao Cheng Min Lin AAML 108 4 0 29 Jan 2025
Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models Behraj Khan T. Syed 524 1 0 29 Jan 2025
Memorize and Rank: Elevating Large Language Models for Clinical Diagnosis Prediction Mingyu Derek Ma Xiaoxuan Wang Yijia Xiao Anthony Cuturrufo Vijay S Nori Eran Halperin Wei Wang ELM 110 2 0 28 Jan 2025
Detecting harassment and defamation in cyberbullying with emotion-adaptive training Peiling Yi A. Zubiaga Yunfei Long 171 0 0 28 Jan 2025
SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training Tianzhe Chu Yuexiang Zhai Jihan Yang Shengbang Tong Saining Xie Dale Schuurmans Quoc V. Le Sergey Levine Yi-An Ma OffRL 253 128 0 28 Jan 2025
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning Yanfang Zhang Yiliu Sun Yibing Zhan Dapeng Tao Dacheng Tao Chen Gong LRM AI4CE LLMAG 171 2 0 28 Jan 2025
Token Democracy: The Architectural Limits of Alignment in Transformer-Based Language Models Robin Young 62 0 0 28 Jan 2025
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models Jingwei Yi Yueqi Xie Bin Zhu Emre Kiciman Guangzhong Sun Xing Xie Fangzhao Wu AAML 182 82 0 28 Jan 2025
On The Truthfulness of 'Surprisingly Likely' Responses of Large Language Models Naman Goel HILM 134 0 0 28 Jan 2025
Risk-Aware Distributional Intervention Policies for Language Models Bao Nguyen Binh Nguyen Duy Nguyen V. Nguyen 127 2 0 28 Jan 2025
Irony Detection, Reasoning and Understanding in Zero-shot Learning Peiling Yi Yuhan Xia Yunfei Long 151 0 0 28 Jan 2025
A Survey of Large Language Models for Healthcare: from Data, Technology, and Applications to Accountability and Ethics Kai He Rui Mao Qika Lin Yucheng Ruan Xiang Lan Mengling Feng Min Zhang LM&MA AILaw 257 177 0 28 Jan 2025
Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models Ran Xu Hejie Cui Yue Yu Xuan Kan Wenqi Shi Yuchen Zhuang Wei Jin Joyce C. Ho Carl Yang 163 17 0 28 Jan 2025
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference Zhihang Lin Mingbao Lin Luxi Lin Rongrong Ji 115 24 0 28 Jan 2025
Towards Cross-Tokenizer Distillation: the Universal Logit Distillation Loss for LLMs Nicolas Boizard Kevin El Haddad C´eline Hudelot Pierre Colombo 169 19 0 28 Jan 2025
Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning Hao Sun M. Schaar 187 18 0 28 Jan 2025
Faster Machine Translation Ensembling with Reinforcement Learning and Competitive Correction Kritarth Prasad Mohammadi Zaki Pratik Rakesh Singh Pankaj Wasnik 65 1 0 28 Jan 2025
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning Zehan Qi Xiao-Chang Liu Iat Long Iong Hanyu Lai Xingwu Sun ... Shuntian Yao Tianjie Zhang Wei Xu J. Tang Yuxiao Dong 231 43 0 28 Jan 2025
Training Dialogue Systems by AI Feedback for Improving Overall Dialogue Impression Kai Yoshida M. Mizukami Seiya Kawano Canasai Kruengkrai Hiroaki Sugiyama Koichiro Yoshino ALM OffRL 134 1 0 28 Jan 2025
SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task Ziije Zhong Linqing Zhong Zhaoze Sun Qingyun Jin Zengchang Qin Xiaofan Zhang 130 11 0 28 Jan 2025
StringLLM: Understanding the String Processing Capability of Large Language Models Xilong Wang Hao Fu Jindong Wang Neil Zhenqiang Gong 188 0 0 28 Jan 2025
Audio-Language Models for Audio-Centric Tasks: A survey Yi Su Jisheng Bai Qisheng Xu Kele Xu Yong Dou AuLLM 175 4 0 28 Jan 2025
Clear Preferences Leave Traces: Reference Model-Guided Sampling for Preference Learning Nirav Diwan Tolga Ergen Dongsub Shim Honglak Lee 89 0 0 28 Jan 2025
TimeHF: Billion-Scale Time Series Models Guided by Human Feedback Yongzhi Qi Hao Hu Dazhou Lei Jianshen Zhang Zhengxin Shi Yulin Huang Zhengyu Chen Xiaoming Lin Zuo-jun Shen AI4TS AI4CE 117 3 0 28 Jan 2025
Ister: Inverted Seasonal-Trend Decomposition Transformer for Explainable Multivariate Time Series Forecasting Fanpu Cao Shu Yang Zhengjian Chen Ye Liu Laizhong Cui AI4TS 84 0 0 28 Jan 2025
Data Duplication: A Novel Multi-Purpose Attack Paradigm in Machine Unlearning Dayong Ye Tainqing Zhu Junlong Li Kun Gao B. Liu Lefei Zhang Wanlei Zhou Yanmei Zhang AAML MU 177 2 0 28 Jan 2025
BoKDiff: Best-of-K Diffusion Alignment for Target-Specific 3D Molecule Generation Ali Khodabandeh Yalabadi Mehdi Yazdani-Jahromi O. Garibay 112 0 0 28 Jan 2025
Learning to Explore and Select for Coverage-Conditioned Retrieval-Augmented Generation Takyoung Kim Kyungjae Lee Y. Jang Ji Yong Cho Gangwoo Kim Minseok Cho Moontae Lee 290 1 0 28 Jan 2025