Title
Synthesizing and Adapting Error Correction Data for Mobile Large Language Model Applications Yanxiang Zhang Zheng Xu Shanshan Wu Yuanbo Zhang Daniel Ramage KELM 48 0 0 24 May 2025
Optimal Transport-Based Token Weighting scheme for Enhanced Preference Optimization Meng Li Guangda Huzhang Haibo Zhang Xiting Wang Anxiang Zeng 44 0 0 24 May 2025
AI-Driven Climate Policy Scenario Generation for Sub-Saharan Africa Rafiu Adekoya Badekale Adewale Akinfaderin 46 0 0 24 May 2025
From Generation to Detection: A Multimodal Multi-Task Dataset for Benchmarking Health Misinformation Zhihao Zhang Yiran Zhang Xiyue Zhou Liting Huang Imran Razzak Preslav Nakov Usman Naseem 26 0 0 24 May 2025
Rethinking Direct Preference Optimization in Diffusion Models Junyong Kang Seohyun Lim Kyungjune Baek Hyunjung Shim 780 0 0 24 May 2025
Tuning Language Models for Robust Prediction of Diverse User Behaviors Fanjin Meng Jingtao Ding Jiahui Gong Chen Yang Hong Chen Zuojian Wang Haisheng Lu Yong Li 211 1 0 23 May 2025
Alignment and Safety of Diffusion Models via Reinforcement Learning and Reward Modeling: A Survey Preeti Lamba Kiran Ravish Ankita Kushwaha Pawan Kumar EGVM MedIm 109 0 0 23 May 2025
Advertising in AI systems: Society must be vigilant Menghua Wu Yujia Bao 107 0 0 23 May 2025
Large Language Models Do Multi-Label Classification Differently Marcus Ma Georgios Chochlakis Niyantha Maruthu Pandiyan Jesse Thomason Shrikanth Narayanan 108 1 0 23 May 2025
KL-regularization Itself is Differentially Private in Bandits and RLHF Yizhou Zhang Kishan Panaganti Laixi Shi Juba Ziani Adam Wierman 50 0 0 23 May 2025
Beyond Distillation: Pushing the Limits of Medical LLM Reasoning with Minimalist Rule-Based RL Che Liu Haozhe Wang J. Pan Zhongwei Wan Yong Dai Fangzhen Lin Wenjia Bai Daniel Rueckert Rossella Arcucci OffRL LRM ELM 118 1 0 23 May 2025
AI-Augmented LLMs Achieve Therapist-Level Responses in Motivational Interviewing Yinghui Huang Yuxuan Jiang Hui Liu Yixin Cai Weiqing Li Xiangen Hu AI4MH 250 0 0 23 May 2025
JALMBench: Benchmarking Jailbreak Vulnerabilities in Audio Language Models Zifan Peng Yule Liu Zhen Sun Mingchen Li Zeren Luo ... Xinlei He Xuechao Wang Yingjie Xue Shengmin Xu Xinyi Huang AuLLM AAML 101 1 0 23 May 2025
Understanding Pre-training and Fine-tuning from Loss Landscape Perspectives Huanran Chen Yinpeng Dong Zeming Wei Yao Huang Yichi Zhang Hang Su Jun Zhu MoMe 104 1 0 23 May 2025
Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling Xiaolong Tang Meina Kan Shiguang Shan Xilin Chen 72 0 0 23 May 2025
Stable Reinforcement Learning for Efficient Reasoning Muzhi Dai Shixuan Liu Qingyi Si OffRL LRM 117 0 0 23 May 2025
One Model Transfer to All: On Robust Jailbreak Prompts Generation against LLMs Linbao Li Y. Liu Daojing He Yu Li AAML 119 0 0 23 May 2025
Curriculum Guided Reinforcement Learning for Efficient Multi Hop Retrieval Augmented Generation Yuelyu Ji Rui Meng Zhuochun Li Daqing He 183 1 0 23 May 2025
Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models Xuchen Pan Yanxi Chen Yushuo Chen Yuchang Sun Daoyuan Chen ... Yilei Zhang Dawei Gao Yaliang Li Bolin Ding Jingren Zhou OffRL 112 0 0 23 May 2025
Understanding How Value Neurons Shape the Generation of Specified Values in LLMs Yi Su Jiayi Zhang Shu Yang Xinhai Wang Lijie Hu Di Wang OffRL 202 2 0 23 May 2025
LA-RCS: LLM-Agent-Based Robot Control System TaekHyun Park YoungJun Choi SeungHoon Shin Kwangil Lee 39 0 0 23 May 2025
MathEDU: Towards Adaptive Feedback for Student Mathematical Problem-Solving Wei-Ling Hsu Yu-Chien Tang An-Zi Yen 256 0 0 23 May 2025
Guided by Gut: Efficient Test-Time Scaling with Reinforced Intrinsic Confidence Amirhosein Ghasemabadi Keith G. Mills Baochun Li Di Niu LRM 85 0 0 23 May 2025
Understanding and Mitigating Overrefusal in LLMs from an Unveiling Perspective of Safety Decision Boundary Licheng Pan Yongqi Tong Xin Zhang Xiaolu Zhang Jun Zhou Zhixuan Chu 59 0 0 23 May 2025
Universal Biological Sequence Reranking for Improved De Novo Peptide Sequencing Zijie Qiu Jiaqi Wei Xiang Zhang Sheng Xu Kai Zou Zhi Jin Zhiqiang Gao Nanqing Dong S. Sun BDL 105 2 0 23 May 2025
ViP $^2$ -CLIP: Visual-Perception Prompting with Unified Alignment for Zero-Shot Anomaly Detection Ziteng Yang Jingzehua Xu Yanshu Li Zepeng Li Yeqiang Wang Xinghui Li VLM 53 0 0 23 May 2025
Bridging Supervised Learning and Reinforcement Learning in Math Reasoning Huayu Chen Kaiwen Zheng Qinsheng Zhang Ganqu Cui Yin Cui Haotian Ye Tsung-Yi Lin Ming-Yu Liu Jun Zhu Haoxiang Wang OffRL LRM 258 3 0 23 May 2025
DialogXpert: Driving Intelligent and Emotion-Aware Conversations through Online Value-Based Reinforcement Learning with LLM Priors Tazeek Bin Abdur Rakib Ambuj Mehrish Lay-Ki Soon Wern Han Lim Soujanya Poria OffRL 60 0 0 23 May 2025
SLearnLLM: A Self-Learning Framework for Efficient Domain-Specific Adaptation of Large Language Models Xiang Liu Zhaoxiang Liu Peng Wang Kohou Wang Huan Hu Kai Wang Shiguo Lian 201 0 0 23 May 2025
Towards Analyzing and Understanding the Limitations of VAPO: A Theoretical Perspective Jintian Shao YiMing Cheng Hongyi Huang Beiwen Zhang ZhiYu Wu You Shan Mingkai Zheng LRM 83 0 0 23 May 2025
Effective Reinforcement Learning for Reasoning in Language Models Lianghuan Huang Shuo Li Sagnik Anupam Insup Lee Osbert Bastani LRM 74 0 0 22 May 2025
DecoupledESC: Enhancing Emotional Support Generation via Strategy-Response Decoupled Preference Optimization Chao Zhang Xin Shi Xueqiao Zhang Yifan Zhu Yi Yang Yawei Luo 90 0 0 22 May 2025
CASTILLO: Characterizing Response Length Distributions of Large Language Models Daniel F. Perez-Ramirez Dejan Kostic Magnus Boman 55 0 0 22 May 2025
Diverse, not Short: A Length-Controlled Self-Learning Framework for Improving Response Diversity of Language Models Vijeta Deshpande Debasmita Ghose John D. Patterson Roger Beaty Anna Rumshisky 116 0 0 22 May 2025
Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding Feilong Tang Chengzhi Liu Zhongxing Xu Ming Hu Zelin Peng ... Minquan Lin Yifan Peng Xuelian Cheng Imran Razzak Zongyuan Ge 78 1 0 22 May 2025
ExeSQL: Self-Taught Text-to-SQL Models with Execution-Driven Bootstrapping for SQL Dialects Jipeng Zhang Haolin Yang Kehao Miao Ruiyuan Zhang Renjie Pi Jiahui Gao Xiaofang Zhou 183 0 0 22 May 2025
CTRAP: Embedding Collapse Trap to Safeguard Large Language Models from Harmful Fine-Tuning Biao Yi Tiansheng Huang Baolei Zhang Tong Li Lihai Nie Zheli Liu Li Shen MU AAML 98 0 0 22 May 2025
ReCopilot: Reverse Engineering Copilot in Binary Analysis Guoqiang Chen Huiqi Sun Daguang Liu Zhiqi Wang Qiang Wang Bin Yin Lu Liu Lingyun Ying 45 0 0 22 May 2025
LightRouter: Towards Efficient LLM Collaboration with Minimal Overhead Yifan Zhang Xinkui Zhao Zuxin Wang Guanjie Cheng Yueshen Xu Shuiguang Deng Yuxiang Cai 95 0 0 22 May 2025
MPO: Multilingual Safety Alignment via Reward Gap Optimization Weixiang Zhao Yulin Hu Yang Deng Tongtong Wu Wenxuan Zhang ... An Zhang Yanyan Zhao Bing Qin Tat-Seng Chua Ting Liu 100 2 0 22 May 2025
SC4ANM: Identifying Optimal Section Combinations for Automated Novelty Prediction in Academic Papers Wenqing Wu Chengzhi Zhang Tong Bao Yi Zhao 221 1 0 22 May 2025
Sudoku-Bench: Evaluating creative reasoning with Sudoku variants Jeffrey Seely Yuki Imajuku Tianyu Zhao Edoardo Cetin Llion Jones LRM 82 1 0 22 May 2025
Learning to Choose or Choosing to Learn: Best-of-N vs. Supervised Fine-Tuning for Bit String Generation Seamus Somerstep Vinod Raman Unique Subedi Yuekai Sun 76 0 0 22 May 2025
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models Ilgee Hong Changlong Yu Liang Qiu Weixiang Yan Zhenghao Xu ... Qingru Zhang Qin Lu Xin Liu Chao Zhang Tuo Zhao OffRL ReLM LRM 88 0 0 22 May 2025
SophiaVL-R1: Reinforcing MLLMs Reasoning with Thinking Reward Kaixuan Fan Kaituo Feng Haoming Lyu Dongzhan Zhou Xiangyu Yue ReLM LRM 138 0 0 22 May 2025
Dynamic Sampling that Adapts: Iterative DPO for Self-Aware Mathematical Reasoning Jun Rao Xuebo Liu Hexuan Deng Zepeng Lin Zixiong Yu Jiansheng Wei Xiaojun Meng Min Zhang LRM 217 0 0 22 May 2025
ConciseRL: Conciseness-Guided Reinforcement Learning for Efficient Reasoning Models Razvan-Gabriel Dumitru Darius Peteleaza Vikas Yadav Liangming Pan ReLM LRM 115 1 0 22 May 2025
Action is All You Need: Dual-Flow Generative Ranking Network for Recommendation Hao Guo Erpeng Xue Lei Huang Shichao Wang Xiaolei Wang Lei Wang Jinpeng Wang Sheng Chen 69 0 0 22 May 2025
Data-Driven Breakthroughs and Future Directions in AI Infrastructure: A Comprehensive Review Beyazit Bestami Yuksel Ayse Yilmazer Metin 25 0 0 22 May 2025
Data Doping or True Intelligence? Evaluating the Transferability of Injected Knowledge in LLMs Essa Jan Moiz Ali Muhammad Saram Hassan Fareed Zaffar Yasir Zaki KELM 41 0 0 22 May 2025