Title
DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks Yupei Liu Yuqi Jia Jinyuan Jia Dawn Song Neil Zhenqiang Gong AAML 95 3 0 15 Apr 2025
ReZero: Enhancing LLM search ability by trying one-more-time Alan Dao Thinh Le RALM LRM 82 1 0 15 Apr 2025
Offline Learning and Forgetting for Reasoning with Large Language Models Tianwei Ni Allen Nie Sapana Chaudhary Yao Liu Huzefa Rangwala Rasool Fakoor ReLM CLL LRM 476 1 0 15 Apr 2025
Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts Quanyu Long Jianda Chen Zhengyuan Liu Nancy F. Chen Wenya Wang Sinno Jialin Pan KELM RALM LRM 426 0 0 15 Apr 2025
ReTool: Reinforcement Learning for Strategic Tool Use in LLMs Jiazhan Feng Shijue Huang Xingwei Qu Ge Zhang Yujia Qin Baoquan Zhong Chengquan Jiang Jinxin Chi Wanjun Zhong OffRL ReLM SyDa KELM LRM 183 35 0 15 Apr 2025
Dynamic Compressing Prompts for Efficient Inference of Large Language Models Jinwu Hu Wentao Zhang Yufeng Wang Yu Hu Bin Xiao Mingkui Tan Qing Du 111 2 0 15 Apr 2025
Fine-Tuning Large Language Models on Quantum Optimization Problems for Circuit Generation Linus Jern Valter Uotila Cong Yu Bo Zhao MQ LRM 93 0 0 15 Apr 2025
A Minimalist Approach to LLM Reasoning: from Rejection Sampling to Reinforce Wei Xiong Jiarui Yao Yuhui Xu Bo Pang Lei Wang ... Junnan Li Nan Jiang Tong Zhang Caiming Xiong Hanze Dong OffRL LRM 119 32 0 15 Apr 2025
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints Ruicheng Ao Gan Luo D. Simchi-Levi Xinshang Wang 90 2 0 15 Apr 2025
REWARD CONSISTENCY: Improving Multi-Objective Alignment from a Data-Centric Perspective Zhihao Xu Yongqi Tong Xin Zhang Jun Zhou Xiting Wang 78 0 0 15 Apr 2025
Training Small Reasoning LLMs with Cognitive Preference Alignment Wenrui Cai Chengyu Wang Junbing Yan Jun Huang Xiangzhong Fang LRM 89 2 0 14 Apr 2025
Improving In-Context Learning with Reasoning Distillation Nafis Sadeq Xin Xu Zhouhang Xie Julian McAuley Byungkyu Kang Prarit Lamba Xiang Gao RALM ReLM LRM 81 0 0 14 Apr 2025
Reasoning without Regret Tarun Chitra OffRL LRM 83 0 0 14 Apr 2025
Augmented Relevance Datasets with Fine-Tuned Small LLMs Quentin Fitte-Rey Matyas Amrouche Romain Deveaud 69 0 0 14 Apr 2025
RealSafe-R1: Safety-Aligned DeepSeek-R1 without Compromising Reasoning Capability Yuanhang Zhang Zihao Zeng Dongbai Li Yao Huang Zhijie Deng Yinpeng Dong LRM 101 10 0 14 Apr 2025
How Instruction and Reasoning Data shape Post-Training: Data Quality through the Lens of Layer-wise Gradients Ming Li Yongqian Li Ziyue Li Tianyi Zhou LRM 87 3 0 14 Apr 2025
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? Yanbo Wang Jiyang Guan Jian Liang Ran He 132 0 0 14 Apr 2025
Better Estimation of the KL Divergence Between Language Models Afra Amini Tim Vieira Ryan Cotterell 125 0 0 14 Apr 2025
CHARM: Calibrating Reward Models With Chatbot Arena Scores Xiao Zhu Chenmien Tan Pinzhen Chen Rico Sennrich Yanlin Zhang Hanxu Hu ALM 122 1 0 14 Apr 2025
Learning from Reference Answers: Versatile Language Model Alignment without Binary Human Preference Data Shuai Zhao Linchao Zhu Yi Yang 97 3 0 14 Apr 2025
OctGPT: Octree-based Multiscale Autoregressive Models for 3D Shape Generation Si-Tong Wei Rui-Huan Wang Chuan-Zhi Zhou Baoquan Chen Peng-Shuai Wang 107 2 0 14 Apr 2025
Refining Financial Consumer Complaints through Multi-Scale Model Interaction Bo-Wei Chen An-Zi Yen Chung-Chi Chen AILaw 75 0 0 14 Apr 2025
DICE: A Framework for Dimensional and Contextual Evaluation of Language Models Aryan Shrivastava Paula Akemi Aoyagui 104 0 0 14 Apr 2025
InstructEngine: Instruction-driven Text-to-Image Alignment Xingyu Lu Yihan Hu Yuanxing Zhang Kaiyu Jiang Changyi Liu ... Bin Wen C. Yuan Fan Yang Yan Li Di Zhang 131 0 0 14 Apr 2025
Joint Action Language Modelling for Transparent Policy Execution Theodor Wulff R. S. Maharjan Xinyun Chi Angelo Cangelosi 87 0 0 14 Apr 2025
DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training Zhenting Wang Guofeng Cui Kun Wan Wentian Zhao Wentian Zhao 79 4 0 13 Apr 2025
QM-ToT: A Medical Tree of Thoughts Reasoning Framework for Quantized Model Zongxian Yang Jiayu Qian Z. Huang Kay Chen Tan LM&MA LRM 170 0 0 13 Apr 2025
Computer-Aided Layout Generation for Building Design: A Review Jiachen Liu Yuan Xue Haomiao Ni Rui Yu Zihan Zhou S. X. Huang 3DV AI4CE 141 0 0 13 Apr 2025
AdaSteer: Your Aligned LLM is Inherently an Adaptive Jailbreak Defender Weixiang Zhao Jiahe Guo Yulin Hu Yang Deng An Zhang ... Xinyang Han Yanyan Zhao Bing Qin Tat-Seng Chua Ting Liu AAML LLMSV 106 4 0 13 Apr 2025
Alleviating the Fear of Losing Alignment in LLM Fine-tuning Kang Yang Guanhong Tao X. Chen Jun Xu 83 1 0 13 Apr 2025
LLMs Can Achieve High-quality Simultaneous Machine Translation as Efficiently as Offline Biao Fu Minpeng Liao Kai Fan Chengxi Li Li Zhang Yidong Chen Xiaodong Shi OffRL 429 1 0 13 Apr 2025
Enhancing Mathematical Reasoning in Large Language Models with Self-Consistency-Based Hallucination Detection MingShan Liu Shi Bo LRM 71 4 0 13 Apr 2025
Kongzi: A Historical Large Language Model with Fact Enhancement Jiashu Yang Ningning Wang Yian Zhao Chaoran Feng Junjia Du Hao Pang Zhirui Fang Xuxin Cheng HILM ALM LRM 73 2 0 13 Apr 2025
SaRO: Enhancing LLM Safety through Reasoning-based Alignment Yutao Mou Yuxiao Luo Shikun Zhang Wei Ye LLMSV LRM 63 2 0 13 Apr 2025
Lumos: Efficient Performance Modeling and Estimation for Large-scale LLM Training Mingyu Liang Hiwot Tadese Kassa Wenyin Fu Brian Coutinho Louis Feng Christina Delimitrou 40 0 0 12 Apr 2025
Large Language Models as Particle Swarm Optimizers Yamato Shinohara Jinglue Xu Tianshui Li Hitoshi Iba 46 0 0 12 Apr 2025
PathVLM-R1: A Reinforcement Learning-Driven Reasoning Model for Pathology Visual-Language Tasks Jian Wu Hao Yang Xinhua Zeng Guibing He Zhe Chen Zhu Li Xinming Zhang Yangyang Ma Run Fang Yang Liu LRM 388 1 0 12 Apr 2025
A Short Survey on Small Reasoning Models: Training, Inference, Applications and Research Directions Chengyu Wang Taolin Zhang Richang Hong Jun Huang ReLM LRM 107 2 0 12 Apr 2025
Feature-Aware Malicious Output Detection and Mitigation Weilong Dong Peiguang Li Yu Tian Xinyi Zeng Fengdi Li Sirui Wang AAML 49 0 0 12 Apr 2025
A Comprehensive Survey of Reward Models: Taxonomy, Applications, Challenges, and Future Jialun Zhong Wei Shen Yanzeng Li Songyang Gao Hua Lu Yicheng Chen Yang Zhang Wei Zhou Jinjie Gu Lei Zou LRM 136 11 0 12 Apr 2025
Continuum-Interaction-Driven Intelligence: Human-Aligned Neural Architecture via Crystallized Reasoning and Fluid Generation Pengcheng Zhou Zhiqiang Nie Haochen Li 76 1 0 12 Apr 2025
X-Guard: Multilingual Guard Agent for Content Moderation Bibek Upadhayay Vahid Behzadan Ph.D 104 3 0 11 Apr 2025
On The Landscape of Spoken Language Models: A Comprehensive Survey Siddhant Arora Kai-Wei Chang Chung-Ming Chien Yifan Peng Haibin Wu Yossi Adi Emmanuel Dupoux Hung-yi Lee Karen Livescu Shinji Watanabe 161 14 0 11 Apr 2025
Large Language Models Could Be Rote Learners Yuyang Xu Renjun Hu Haochao Ying Jian Wu Xing Shi Wei Lin ELM 440 0 0 11 Apr 2025
NorEval: A Norwegian Language Understanding and Generation Evaluation Benchmark Vladislav Mikhailov Tita Ranveig Enstad David Samuel Hans Christian Farsethås Andrey Kutuzov Erik Velldal Lilja Øvrelid ELM 115 1 0 10 Apr 2025
Perception-R1: Pioneering Perception Policy with Reinforcement Learning En Yu Kangheng Lin Liang Zhao Jisheng Yin Yana Wei ... Zheng Ge Xiangyu Zhang Daxin Jiang Jingyu Wang Wenbing Tao VLM OffRL LRM 111 18 0 10 Apr 2025
LoRI: Reducing Cross-Task Interference in Multi-Task Low-Rank Adaptation Juzheng Zhang Jiacheng You Ashwinee Panda Tom Goldstein MoMe 111 4 0 10 Apr 2025
AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation Tuhin Chakrabarty Philippe Laban Chien-Sheng Wu 112 4 0 10 Apr 2025
2D-Curri-DPO: Two-Dimensional Curriculum Learning for Direct Preference Optimization Mengyang Li Zhong Zhang 75 1 0 10 Apr 2025
Plan-and-Refine: Diverse and Comprehensive Retrieval-Augmented Generation Alireza Salemi Chris Samarinas Hamed Zamani 80 0 0 10 Apr 2025