Title
UFO-RL: Uncertainty-Focused Optimization for Efficient Reinforcement Learning Data Selection Yang Zhao Kai Xiong Xiao Ding LI DU YangouOuyang ... W. Zhang Bin Liu Dong Hu Bing Qin Ting Liu OffRL 0 0 0 18 May 2025
HelpSteer3-Preference: Open Human-Annotated Preference Data across Diverse Tasks and Languages Zhilin Wang Jiaqi Zeng Olivier Delalleau Hoo-Chang Shin Felipe Soares Alexander Bukharin Ellie Evans Yi Dong Oleksii Kuchaiev 19 0 0 16 May 2025
Questioning Representational Optimism in Deep Learning: The Fractured Entangled Representation Hypothesis Akarsh Kumar Jeff Clune Joel Lehman Kenneth O. Stanley OOD 4 0 0 16 May 2025
Multi-Token Prediction Needs Registers Anastasios Gerontopoulos Spyros Gidaris N. Komodakis 24 0 0 15 May 2025
Parallel Scaling Law for Language Models Mouxiang Chen Binyuan Hui Zeyu Cui Jiaxi Yang Dayiheng Liu Jianling Sun Junyang Lin Zhongxin Liu MoE LRM 37 0 0 15 May 2025
Rethinking Prompt Optimizers: From Prompt Merits to Optimization Zixiao Zhu Hanzhang Zhou Zijian Feng Tianjiao Li Chua Jia Jim Deryl Mak Lee Onn Gee Wah Ng Kezhi Mao LRM 31 0 0 15 May 2025
ComplexFormer: Disruptively Advancing Transformer Inference Ability via Head-Specific Complex Vector Attention Jintian Shao Hongyi Huang Jiayi Wu Beiwen Zhang ZhiYu Wu You Shan MingKai Zheng 29 0 0 15 May 2025
Reinforcing the Diffusion Chain of Lateral Thought with Diffusion Language Models Zemin Huang Zhiyang Chen Zijun Wang Tiancheng Li Guo-Jun Qi DiffM LRM AI4CE 23 0 0 15 May 2025
Demystifying AI Agents: The Final Generation of Intelligence Kevin J McNamara Rhea Pritham Marpu 29 0 0 15 May 2025
Mining Hidden Thoughts from Texts: Evaluating Continual Pretraining with Synthetic Data for LLM Reasoning Yoichi Ishibashi Taro Yano Masafumi Oyamada SyDa LRM 44 0 0 15 May 2025
Decomposed Inductive Procedure Learning: Learning Academic Tasks with Human-Like Data Efficiency Daniel Weitekamp Christopher James Maclellan Erik Harpstead Kenneth R. Koedinger 16 0 0 15 May 2025
Analog Foundation Models Julian Büchel Iason Chalas Giovanni Acampa An Chen Omobayode Fagbohungbe Sidney Tsai Kaoutar El Maghraoui Manuel Le Gallo Abbas Rahimi Abu Sebastian MQ 35 0 0 14 May 2025
Qwen3 Technical Report A. Yang A. Li Baosong Yang Beichen Zhang Binyuan Hui ... Zekun Wang Zeyu Cui Z. Zhang Zhenhong Zhou Zihan Qiu LLMAG OSLM LRM 42 0 0 14 May 2025
PT-MoE: An Efficient Finetuning Framework for Integrating Mixture-of-Experts into Prompt Tuning Zongqian Li Yixuan Su Nigel Collier MoE 21 0 0 14 May 2025
WorldView-Bench: A Benchmark for Evaluating Global Cultural Perspectives in Large Language Models Abdullah Mushtaq Imran Taj Rafay Naeem Ibrahim Ghaznavi Junaid Qadir 26 0 0 14 May 2025
Towards Contamination Resistant Benchmarks Rahmatullah Musawi Sheng Lu 42 0 0 13 May 2025
Evaluating LLM Metrics Through Real-World Capabilities Justin K Miller Wenjia Tang ELM ALM 42 0 0 13 May 2025
TUMS: Enhancing Tool-use Abilities of LLMs with Multi-structure Handlers Aiyao He Sijia Cui Shuai Xu Yanna Wang Bo Xu 39 0 0 13 May 2025
DSADF: Thinking Fast and Slow for Decision Making Alex Zhihao Dou Dongfei Cui Jun Yan Wei Wang Benteng Chen Haoming Wang Zeke Xie Shufei Zhang OffRL 41 0 0 13 May 2025
DeepMath-Creative: A Benchmark for Evaluating Mathematical Creativity of Large Language Models Xiaoyang Chen Xinan Dai Yu Du Qian Feng Naixu Guo ... J. Xu Yiyang Yu Zhiyong Yang Hongji Zha Ruichong Zhang LRM 36 0 0 13 May 2025
Skywork-VL Reward: An Effective Reward Model for Multimodal Understanding and Reasoning Xiaokun Wang Chris Jiangbo Pei Wei Shen Yi Peng ... Ai Jian Tianyidan Xie Xuchen Song Yang Liu Yahui Zhou OffRL LRM 28 0 0 12 May 2025
Uncertainty Profiles for LLMs: Uncertainty Source Decomposition and Adaptive Model-Metric Selection Pei-Fu Guo Yun-Da Tsai Shou-De Lin UD 51 0 0 12 May 2025
SpecRouter: Adaptive Routing for Multi-Level Speculative Decoding in Large Language Models Hang Wu Jianian Zhu Yongqian Li Haojie Wang Biao Hou Jidong Zhai 40 0 0 12 May 2025
FalseReject: A Resource for Improving Contextual Safety and Mitigating Over-Refusals in LLMs via Structured Reasoning Zhehao Zhang Weijie Xu Fanyou Wu Chandan K. Reddy 29 0 0 12 May 2025
SEM: Reinforcement Learning for Search-Efficient Large Language Models Zeyang Sha Shiwen Cui Weiqiang Wang KELM OffRL LRM 31 0 0 12 May 2025
A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models Junjie Ye Caishuang Huang Zhe Chen Wenjie Fu Chenyuan Yang ... Tao Gui Qi Zhang Zhongchao Shi Jianping Fan Xuanjing Huang ALM 43 0 0 12 May 2025
Learning from Peers in Reasoning Models Tongxu Luo Wenyu Du Jiaxi Bi Stephen Chung Zhengyang Tang Hao Yang M. Zhang Benyou Wang LRM 41 0 0 12 May 2025
Direct Density Ratio Optimization: A Statistically Consistent Approach to Aligning Large Language Models Rei Higuchi Taiji Suzuki 33 0 0 12 May 2025
ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution X. Huang Weiwen Liu Xingshan Zeng Y. Huang Xinlong Hao ... Yirong Zeng Chuhan Wu Yishuo Wang R. Tang Defu Lian KELM 36 0 0 12 May 2025
LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning Xiaotian Lin Yanlin Qi Yizhang Zhu Themis Palpanas Chengliang Chai Nan Tang Yuyu Luo 26 0 0 12 May 2025
AttentionInfluence: Adopting Attention Head Influence for Weak-to-Strong Pretraining Data Selection Kai Hua Steven Wu Ge Zhang Ke Shen LRM 28 0 0 12 May 2025
MiMo: Unlocking the Reasoning Potential of Language Model -- From Pretraining to Posttraining Xiaomi LLM-Core Team Bingquan Xia B. S. Cici Dawei Zhu ... Yishuo Wang Yue Yu Zhenru Lin Zhichao Song Zihao Yue MoE ReLM LRM AI4CE 48 0 0 12 May 2025
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free Zihan Qiu Zekun Wang Bo Zheng Zeyu Huang Kaiyue Wen ... Fei Huang Suozhi Huang Dayiheng Liu Jingren Zhou Junyang Lin MoE 28 0 0 10 May 2025
xGen-small Technical Report Erik Nijkamp Bo Pang Egor Pakhomov Akash Gokul Jin Qu Silvio Savarese Yingbo Zhou Caiming Xiong LLMAG 58 0 0 10 May 2025
Practical Reasoning Interruption Attacks on Reasoning Large Language Models Yu Cui Cong Zuo SILM AAML LRM 31 0 0 10 May 2025
LLMs Get Lost In Multi-Turn Conversation Philippe Laban Hiroaki Hayashi Yingbo Zhou Jennifer Neville 44 1 0 09 May 2025
Assessing Robustness to Spurious Correlations in Post-Training Language Models Julia Shuieh Prasann Singhal Apaar Shanker John Heyer George Pu Samuel Denton LRM 29 0 0 09 May 2025
AgentXploit: End-to-End Redteaming of Black-Box AI Agents Zhun Wang Vincent Siu Zhe Ye Tianneng Shi Yuzhou Nie Xuandong Zhao Chenguang Wang Wenbo Guo Dawn Song LLMAG AAML 36 0 0 09 May 2025
Elastic Weight Consolidation for Full-Parameter Continual Pre-Training of Gemma2 Vytenis Šliogeris Povilas Daniušis Arturas Nakvosas CLL 37 0 0 09 May 2025
KCluster: An LLM-based Clustering Approach to Knowledge Component Discovery Yumou Wei Paulo Carvalho John Stamper AI4Ed 53 1 0 09 May 2025
Stability in Single-Peaked Strategic Resource Selection Games Henri Zeiler 32 3 0 09 May 2025
Position: Epistemic Artificial Intelligence is Essential for Machine Learning Models to Know When They Do Not Know Shireen Kudukkil Manchingal Fabio Cuzzolin 56 0 0 08 May 2025
RICo: Refined In-Context Contribution for Automatic Instruction-Tuning Data Selection Yixin Yang Qingxiu Dong Linli Yao Fangwei Zhu Zhifang Sui 48 0 0 08 May 2025
Crosslingual Reasoning through Test-Time Scaling Zheng-Xin Yong Muhammad Farid Adilazuarda Jonibek Mansurov Ruochen Zhang Niklas Muennighoff Carsten Eickhoff Genta Indra Winata Julia Kreutzer Stephen H. Bach Alham Fikri Aji LRM ELM 157 0 0 08 May 2025
Scalable LLM Math Reasoning Acceleration with Low-rank Distillation Harry Dong Bilge Acun Beidi Chen Yuejie Chi LRM 34 0 0 08 May 2025
LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities Kalyan Nakka Jimmy Dani Ausmit Mondal Nitesh Saxena AAML 30 0 0 08 May 2025
Scaling Laws for Speculative Decoding Siyuan Yan Mo Zhu Guo-qing Jiang Jianfei Wang Jiaxing Chen ... Xiang Liao Xiao Cui Chen Zhang Zhuoran Song Ran Zhu LRM 48 0 0 08 May 2025
REVEAL: Multi-turn Evaluation of Image-Input Harms for Vision LLM Madhur Jindal Saurabh Deshpande AAML 45 0 0 07 May 2025
Advancing and Benchmarking Personalized Tool Invocation for LLMs X. Huang Yuefeng Huang Wei Liu Xingshan Zeng Y. Wang Ruiming Tang Hong Xie Defu Lian 55 0 0 07 May 2025
Beyond Theorem Proving: Formulation, Framework and Benchmark for Formal Problem-Solving Qi Liu Xinhao Zheng Renqiu Xia Xingzhi Qi Qinxiang Cao Junchi Yan AIMat 52 0 0 07 May 2025