Title
MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models Xuanqi Gao Siyi Xie Juan Zhai Shqing Ma Chao Shen ELM 115 0 0 22 May 2025
Think-RM: Enabling Long-Horizon Reasoning in Generative Reward Models Ilgee Hong Changlong Yu Liang Qiu Weixiang Yan Zhenghao Xu ... Qingru Zhang Qin Lu Xin Liu Chao Zhang Tuo Zhao OffRL ReLM LRM 78 0 0 22 May 2025
Training-Free Reasoning and Reflection in MLLMs Hongchen Wei Zhenzhong Chen OffRL VLM LRM 106 0 0 22 May 2025
Panoptic Captioning: Seeking An Equivalency Bridge for Image and Text Kun-Yu Lin Hongjun Wang Weining Ren Kai Han 291 0 0 22 May 2025
Sudoku-Bench: Evaluating creative reasoning with Sudoku variants Jeffrey Seely Yuki Imajuku Tianyu Zhao Edoardo Cetin Llion Jones LRM 82 1 0 22 May 2025
MAPLE: Many-Shot Adaptive Pseudo-Labeling for In-Context Learning Zihan Chen Song Wang Zhen Tan Jundong Li Cong Shen OffRL 236 1 0 22 May 2025
Advancing the Scientific Method with Large Language Models: From Hypothesis to Discovery Yanbo Zhang S. Khan Adnan Mahmud Huck Yang Alexander Lavin ... James A. Evans Alan R. Bundy Jannis Brugger Jesper Tegner Hector Zenil LM&MA 88 1 0 22 May 2025
Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation Derong Xu Pengyue Jia Xiaopeng Li Yingyi Zhang Maolin Wang ... Yichao Wang Huifeng Guo Ruiming Tang Enhong Chen Tong Xu RALM 84 0 0 22 May 2025
Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO Chengzhuo Tong Ziyu Guo Renrui Zhang Wenyu Shan Xinyu Wei Zhenghao Xing Hongsheng Li Pheng-Ann Heng EGVM OffRL LRM 110 1 0 22 May 2025
Plan and Budget: Effective and Efficient Test-Time Scaling on Large Language Model Reasoning Junhong Lin Xinyue Zeng Jie Zhu Song Wang Julian Shun Jun Wu Dawei Zhou LRM 153 1 0 22 May 2025
Amplify Adjacent Token Differences: Enhancing Long Chain-of-Thought Reasoning with Shift-FFN Yao Xu Mingyu Xu Fangyu Lei Wangtao Sun Xiangrong Zeng Bingning Wang Guang Liu Shizhu He Jun Zhao Kang Liu LRM 77 1 0 22 May 2025
Grounding Chest X-Ray Visual Question Answering with Generated Radiology Reports Francesco Dalla Serra Patrick Schrempf Chaoyang Wang Zaiqiao Meng Fani Deligianni Alison Q. OÑeil 43 0 0 22 May 2025
Distilling the Implicit Multi-Branch Structure in LLMs' Reasoning via Reinforcement Learning Shicheng Xu Liang Pang Yunchang Zhu Jia Gu Zihao Wei Jingcheng Deng Feiyang Pan Huawei Shen Xueqi Cheng OffRL LRM 92 0 0 22 May 2025
Latent Principle Discovery for Language Model Self-Improvement Keshav Ramji Tahira Naseem Ramón Fernandez Astudillo LRM 113 0 0 22 May 2025
Only Large Weights (And Not Skip Connections) Can Prevent the Perils of Rank Collapse Josh Alman Zhao Song 101 2 0 22 May 2025
TRIM: Achieving Extreme Sparsity with Targeted Row-wise Iterative Metric-driven Pruning Florentin Beck William Rudman Carsten Eickhoff 59 0 0 22 May 2025
AdaSTaR: Adaptive Data Sampling for Training Self-Taught Reasoners Woosung Koh Wonbeen Oh Jaein Jang MinHyung Lee Hyeongjin Kim Ah Yeon Kim Joonkee Kim Junghyun Lee Taehyeon Kim Se-Young Yun LRM TTA 117 0 0 22 May 2025
CASTILLO: Characterizing Response Length Distributions of Large Language Models Daniel F. Perez-Ramirez Dejan Kostic Magnus Boman 44 0 0 22 May 2025
Large Language Model-Empowered Interactive Load Forecasting Yu Zuo Dalin Qin Yi Wang 46 0 0 22 May 2025
MMaDA: Multimodal Large Diffusion Language Models Ling Yang Ye Tian Bowen Li Xinchen Zhang Ke Shen Yunhai Tong Mengdi Wang VLM LRM 141 6 0 21 May 2025
Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning Jinghui Lu Haiyang Yu Siliang Xu Shiwei Ran Guozhi Tang ... Teng Fu Hao Feng Jingqun Tang Hongru Wang Can Huang LRM 109 3 0 21 May 2025
LogiCase: Effective Test Case Generation from Logical Description in Competitive Programming Sicheol Sung Aditi Dogyu kim Yo-Sub Han Sang-Ki Ko ELM 46 1 0 21 May 2025
Exploring the Limits of Vision-Language-Action Manipulations in Cross-task Generalization Jiaming Zhou Ke Ye Jiayi Liu Teli Ma Zifang Wang Ronghe Qiu Kun-Yu Lin Zhilin Zhao Junwei Liang 115 2 0 21 May 2025
Soft Thinking: Unlocking the Reasoning Potential of LLMs in Continuous Concept Space Zhen Zhang Xuehai He Weixiang Yan Ao Shen Chenyang Zhao Shuaiqiang Wang Yelong Shen Xin Eric Wang LRM 110 3 0 21 May 2025
R&D-Agent-Quant: A Multi-Agent Framework for Data-Centric Factors and Model Joint Optimization Yuante Li Xu Yang Xiao Yang Minrui Xu Xisen Wang Weiqing Liu Jiang Bian AIFin 254 0 0 21 May 2025
Learning to Reason via Mixture-of-Thought for Logical Reasoning Tong Zheng Lichang Chen Simeng Han R. Thomas McCoy Heng Huang LRM 98 1 0 21 May 2025
Teaching Language Models to Evolve with Users: Dynamic Profile Modeling for Personalized Alignment Weixiang Zhao Xingyu Sui Yulin Hu Jiahe Guo Haixiao Liu Biye Li Yanyan Zhao Bing Qin Ting Liu OffRL 110 1 0 21 May 2025
Small Language Models in the Real World: Insights from Industrial Text Classification Lujun Li Lama Sleem Niccolo Gentile Geoffrey Nichil Radu State LLMAG 212 0 0 21 May 2025
CoT Information: Improved Sample Complexity under Chain-of-Thought Supervision Awni Altabaa Omar Montasser John Lafferty LRM 51 0 0 21 May 2025
Towards Zero-Shot Differential Morphing Attack Detection with Multimodal Large Language Models Ria Shekhawat Hailin Li Raghavendra Ramachandra S. Venkatesh 59 1 0 21 May 2025
An Empirical Study on Reinforcement Learning for Reasoning-Search Interleaved LLM Agents Bowen Jin Jinsung Yoon Priyanka Kargupta Sercan O. Arik Jiawei Han LRM 146 2 0 21 May 2025
ClickSight: Interpreting Student Clickstreams to Reveal Insights on Learning Strategies via LLMs Bahar Radmehr Ekaterina Shved Fatma Betül Güreş Adish Singla Tanja Käser 28 0 0 21 May 2025
Conformal Language Model Reasoning with Coherent Factuality Maxon Rubin-Toles Maya Gambhir Keshav Ramji Aaron Roth Surbhi Goel HILM LRM 76 2 0 21 May 2025
ThinkRec: Thinking-based recommendation via LLM Qihang Yu Kairui Fu Shengyu Zhang Zheqi Lv Fan Wu Fei Wu LRM 38 0 0 21 May 2025
TinyDrive: Multiscale Visual Question Answering with Selective Token Routing for Autonomous Driving Hossein Hassani Soodeh Nikan Abdallah Shami MLLM 135 0 0 21 May 2025
StepSearch: Igniting LLMs Search Ability via Step-Wise Proximal Policy Optimization Ziliang Wang Xuhui Zheng Kang An Cijun Ouyang Jialu Cai Yuhang Wang Yichao Wu LRM 142 0 0 21 May 2025
Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning Alex Su Haozhe Wang Weiming Ren Fangzhen Lin Wenhu Chen MLLM OffRL LRM VLM 77 2 0 21 May 2025
Thought-Augmented Policy Optimization: Bridging External Guidance and Internal Capabilities Jinyang Wu Chonghua Liao Mingkuan Feng Shuai Zhang Zhengqi Wen Pengpeng Shao Huazhe Xu Jianhua Tao LRM OffRL 137 3 0 21 May 2025
Exploring LLM-Generated Feedback for Economics Essays: How Teaching Assistants Evaluate and Envision Its Use Xinyi Lu Aditya Mahesh Zejia Shen Mitchell Dudley Larissa Sano Xu Wang 55 0 0 21 May 2025
Reward Is Enough: LLMs Are In-Context Reinforcement Learners Kefan Song Amir Moeini Peng Wang Lei Gong Rohan Chandra Yanjun Qi Shangtong Zhang ReLM LRM 22 3 0 21 May 2025
Learning to Rank Chain-of-Thought: An Energy-Based Approach with Outcome Supervision Eric Hanchen Jiang Haozheng Luo Shengyuan Pang Xiaomin Li Zhenting Qi ... Zongyu Lin Xinfeng Li Hao Xu Kai-Wei Chang Ying Nian Wu LRM 118 0 0 21 May 2025
Boost Post-Training Quantization via Null Space Optimization for Large Language Models Jiaqi Zhao Miao Zhang Weili Guan Liqiang Nie MQ 12 0 0 21 May 2025
VERDI: VLM-Embedded Reasoning for Autonomous Driving Bowen Feng Zhiting Mei Baiang Li Julian Ost Roger Girgis Anirudha Majumdar Felix Heide VLM LRM 244 0 0 21 May 2025
Large Language models for Time Series Analysis: Techniques, Applications, and Challenges Feifei Shi Xueyan Yin Kang Wang Wanyu Tu Qifu Sun Huansheng Ning AI4TS 15 0 0 21 May 2025
ContextAgent: Context-Aware Proactive LLM Agents with Open-World Sensory Perceptions Bufang Yang Lilin Xu Liekang Zeng Kaiwei Liu Siyang Jiang Wenrui Lu Hongkai Chen Xiaofan Jiang Guoliang Xing Zhenyu Yan LLMAG 97 0 0 20 May 2025
Out-of-Distribution Generalization of In-Context Learning: A Low-Dimensional Subspace Perspective Soo Min Kwon Alec S. Xu Can Yaras Laura Balzano Qing Qu OOD 54 1 0 20 May 2025
FOL-Pretrain: A complexity annotated corpus of first-order logic Isabelle Lee Sarah Liaw Dani Yogatama OffRL LRM 24 0 0 20 May 2025
TelePlanNet: An AI-Driven Framework for Efficient Telecom Network Planning Zongyuan Deng Yujie Cai Qing Liu Shiyao Mu Bin Lyu Zhen Yang 124 0 0 20 May 2025
Do Language Models Use Their Depth Efficiently? Róbert Csordás Christopher D. Manning Christopher Potts 206 2 0 20 May 2025
DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery Kun Li Zhennan Wu Shoupeng Wang Wenbin Hu LLMAG LM&MA 58 0 0 20 May 2025