Title
BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models Zhilin Wang Hongwei Li Rui Zhang Wenbo Jiang Kangjie Chen Tianwei Zhang Qingchuan Zhao Jiawei Li AAML 46 0 0 06 May 2025
am-ELO: A Stable Framework for Arena-based LLM Evaluation Zirui Liu Jiatong Li Yan Zhuang Qiang Liu Shuanghong Shen Jie Ouyang Mingyue Cheng Shijin Wang 41 0 0 06 May 2025
RobotxR1: Enabling Embodied Robotic Intelligence on Large Language Models through Closed-Loop Reinforcement Learning Liam Boyle Nicolas Baumann Paviththiren Sivasothilingam Michele Magno Luca Benini LM&Ro LRM 51 0 0 06 May 2025
Knowledge Augmented Complex Problem Solving with Large Language Models: A Survey Da Zheng Lun Du Junwei Su Yuchen Tian Yuqi Zhu Jintian Zhang Lanning Wei Ningyu Zhang H. Chen LRM 61 0 0 06 May 2025
X-Reasoner: Towards Generalizable Reasoning Across Modalities and Domains Qianchu Liu Sheng Zhang Guanghui Qin Timothy Ossowski Yu Gu ... Sam Preston Mu-Hsin Wei Paul Vozila Tristan Naumann Hoifung Poon OOD LRM VLM 59 1 0 06 May 2025
Recall with Reasoning: Chain-of-Thought Distillation for Mamba's Long-Context Memory and Extrapolation Junyu Ma Tianqing Fang Z. Zhang Hongming Zhang Haitao Mi Dong Yu ReLM RALM LRM 142 0 0 06 May 2025
Radio: Rate-Distortion Optimization for Large Language Model Compression Sean I. Young MQ 23 0 0 05 May 2025
Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models Xiaobao Wu LRM 72 1 0 05 May 2025
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play Yemin Shi Yu Shu Siwei Dong Guangyi Liu Jaward Sesay Jingwen Li Zhiting Hu AuLLM VLM 50 0 0 05 May 2025
Rewriting Pre-Training Data Boosts LLM Performance in Math and Code Kazuki Fujii Yukito Tajima Sakae Mizuki Hinari Shimada Taihei Shiotani ... Kakeru Hattori Youmi Ma Hiroya Takamura Rio Yokota Naoaki Okazaki SyDa 49 0 0 05 May 2025
SIMPLEMIX: Frustratingly Simple Mixing of Off- and On-policy Data in Language Model Preference Learning Tianjian Li Daniel Khashabi 55 0 0 05 May 2025
FormalMATH: Benchmarking Formal Mathematical Reasoning of Large Language Models Zhouliang Yu Ruotian Peng Keyi Ding Y. K. Li Zhongyuan Peng ... Huajian Xin Yifan Jiang Yandong Wen Ge Zhang Weiyang Liu LRM 128 1 0 05 May 2025
Measuring Hong Kong Massive Multi-Task Language Understanding Chuxue Cao Zhenghao Zhu Junqi Zhu Guoying Lu Siyu Peng Juntao Dai Weijie Shi Sirui Han Yike Guo ELM 148 0 0 04 May 2025
Accelerating Large Language Model Reasoning via Speculative Search Zhihai Wang Jie Wang Jilai Pan Xilin Xia Huiling Zhen M. Yuan Jianye Hao Feng Wu ReLM LRM 59 0 0 03 May 2025
Memory-Efficient LLM Training by Various-Grained Low-Rank Projection of Gradients Yezhen Wang Zhouhao Yang Brian K Chen Fanyi Pu Bo-wen Li Tianyu Gao Kenji Kawaguchi 43 0 0 03 May 2025
MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance Xing Hu Zhixuan Chen Dawei Yang Zukang Xu Chen Xu Zhihang Yuan Sifan Zhou Jiangyong Yu MoE MQ 41 0 0 02 May 2025
TRAVELER: A Benchmark for Evaluating Temporal Reasoning across Vague, Implicit and Explicit References Svenja Kenneweg J. Deigmöller Philipp Cimiano Julian Eggert 51 0 0 02 May 2025
TutorGym: A Testbed for Evaluating AI Agents as Tutors and Students Daniel Weitekamp M. N. Siddiqui Christopher James Maclellan LLMAG ELM 32 0 0 02 May 2025
Block Circulant Adapter for Large Language Models Xinyu Ding Meiqi Wang Siyu Liao Zhongfeng Wang 38 0 0 01 May 2025
NeMo-Inspector: A Visualization Tool for LLM Generation Analysis Daria Gitman Igor Gitman Evelina Bakhturina SyDa 49 0 0 01 May 2025
DeepCritic: Deliberate Critique with Large Language Models Wenkai Yang Jingwen Chen Yankai Lin Ji-Rong Wen ALM LRM 30 0 0 01 May 2025
Position: AI Competitions Provide the Gold Standard for Empirical Rigor in GenAI Evaluation D. Sculley Will Cukierski Phil Culliton Sohier Dane Maggie Demkin ... Addison Howard Paul Mooney Walter Reade Megan Risdal Nate Keating 31 0 0 01 May 2025
AdaptMI: Adaptive Skill-based In-context Math Instruction for Small Language Models Yinghui He A. Panigrahi Yong Lin Sanjeev Arora 38 0 0 30 Apr 2025
Between Underthinking and Overthinking: An Empirical Study of Reasoning Length and correctness in LLMs Jinyan Su Jennifer Healey Preslav Nakov Claire Cardie LRM 150 1 0 30 Apr 2025
AdaR1: From Long-CoT to Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization H. Luo Haiying He Y. Wang Jinluan Yang Rui Liu Naiqiang Tan Xiaochun Cao Dacheng Tao Li Shen LRM 26 1 0 30 Apr 2025
MAC-Tuning: LLM Multi-Compositional Problem Reasoning with Enhanced Knowledge Boundary Awareness Junsheng Huang Zhitao He Sandeep Polisetty Q. Wang May Fung KELM 45 0 0 30 Apr 2025
COSMOS: Predictable and Cost-Effective Adaptation of LLMs Jiayu Wang Aws Albarghouthi Frederic Sala 52 0 0 30 Apr 2025
Computational Reasoning of Large Language Models Haitao Wu Zongbo Han Joey Tianyi Zhou Huaxi Huang Changqing Zhang ELM LRM 62 0 0 29 Apr 2025
Local Prompt Optimization Yash Jain Vishal Chowdhary 53 0 0 29 Apr 2025
A Survey on Parameter-Efficient Fine-Tuning for Foundation Models in Federated Learning Jieming Bian Yuanzhe Peng Lei Wang Yin Huang Jie Xu FedML 65 0 0 29 Apr 2025
Token-Efficient RL for LLM Reasoning Alan Lee Harry Tong OffRL 127 0 0 29 Apr 2025
Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User Xinyu Wang Chunxuan Xia Junyi Li Fanzhe Meng Lei Huang Jinpeng Wang Wayne Xin Zhao Ji-Rong Wen 63 0 0 29 Apr 2025
RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library J. Wang Jinhao Jiang Qing Cui Jun Zhou Wayne Xin Zhao SyDa 58 0 0 29 Apr 2025
Accurate and Diverse LLM Mathematical Reasoning via Automated PRM-Guided GFlowNets Adam Younsi Abdalgader Abubaker M. Seddik Hakim Hacid Salem Lahlou LRM 57 0 0 28 Apr 2025
$$\texttt{SAGE}$: A Generic Framework for LLM Safety Evaluation$ $\texttt{SAGE}$ : A Generic Framework for LLM Safety Evaluation Madhur Jindal Hari Shrawgi Parag Agrawal Sandipan Dandapat ELM 47 0 0 28 Apr 2025
GenCLS++: Pushing the Boundaries of Generative Classification in LLMs Through Comprehensive SFT and RL Studies Across Diverse Datasets Mingqian He Fei Zhao Chonggang Lu Ziqiang Liu Yuping Wang Haofu Qian OffRL AI4TS VLM 72 0 0 28 Apr 2025
Anyprefer: An Agentic Framework for Preference Data Synthesis Yiyang Zhou Zekun Wang Tianle Wang Shangyu Xing Peng Xia ... Chetan Bansal Weitong Zhang Ying Wei Joey Tianyi Zhou Huaxiu Yao 63 1 0 27 Apr 2025
Efficient Reasoning for LLMs through Speculative Chain-of-Thought Jikai Wang J. Li Lijun Wu M. Zhang LLMAG LRM 69 2 0 27 Apr 2025
SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning Jiaqi Chen Bang Zhang Ruotian Ma Peisong Wang Xiaodan Liang Zhaopeng Tu Xuzhao Li Kwan-Yee K. Wong LLMAG ReLM LRM 91 0 0 27 Apr 2025
Uncertainty Quantification for Language Models: A Suite of Black-Box, White-Box, LLM Judge, and Ensemble Scorers Dylan Bouchard Mohit Singh Chauhan HILM 84 0 0 27 Apr 2025
Bi-directional Model Cascading with Proxy Confidence David Warren Mark Dras 46 0 0 27 Apr 2025
KETCHUP: K-Step Return Estimation for Sequential Knowledge Distillation Jiabin Fan Guoqing Luo Michael Bowling Lili Mou OffRL 68 0 0 26 Apr 2025
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong Xuzhao Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Tianwei Zhang ALM ELM 86 2 0 26 Apr 2025
Random-Set Large Language Models Muhammad Mubashar Shireen Kudukkil Manchingal Fabio Cuzzolin 66 0 0 25 Apr 2025
PolyMath: Evaluating Mathematical Reasoning in Multilingual Contexts Y. Wang Pei Zhang Jialong Tang H. Wei Baosong Yang ... Yuhang Zhang Fei Huang Junyang Lin Fei Huang Jingren Zhou LRM 57 0 0 25 Apr 2025
Think, Prune, Train, Improve: Scaling Reasoning without Scaling Models Caia Costello Simon Guo Anna Goldie Azalia Mirhoseini ReLM SyDa LRM 111 1 0 25 Apr 2025
Benchmarking Multimodal Mathematical Reasoning with Explicit Visual Dependency Zhikai Wang Jiashuo Sun Wenbo Zhang Zhiqiang Hu Xin Li F. Wang Deli Zhao VLM LRM 75 0 0 24 Apr 2025
An Empirical Study on Prompt Compression for Large Language Models Z. Zhang Jinyi Li Yihuai Lan Qing Guo Hao Wang MQ 51 0 0 24 Apr 2025
Evaluating Grounded Reasoning by Code-Assisted Large Language Models for Mathematics Zena Al-Khalili Nick Howell Dietrich Klakow LRM 29 0 0 24 Apr 2025
Process Reward Models That Think Muhammad Khalifa Rishabh Agarwal Lajanugen Logeswaran Jaekyeom Kim Hao Peng Moontae Lee Honglak Lee Lu Wang OffRL ALM LRM 44 1 0 23 Apr 2025