Title
ExpertSteer: Intervening in LLMs through Expert Knowledge Weixuan Wang Minghao Wu Barry Haddow Alexandra Birch LLMSV 175 0 0 18 May 2025
Enhancing Large Language Models with Reward-guided Tree Search for Knowledge Graph Question and Answering Xiao Long Liansheng Zhuang Chen Shen Shaotian Yan Yifei Li Shafei Wang RALM LRM 62 0 0 18 May 2025
Beyond Single-Point Judgment: Distribution Alignment for LLM-as-a-Judge Luyu Chen Zeyu Zhang Haoran Tan Quanyu Dai Hao-ran Yang Zhenhua Dong Xu Chen 52 0 0 18 May 2025
Observe-R1: Unlocking Reasoning Abilities of MLLMs with Dynamic Progressive Reinforcement Learning Zirun Guo Minjie Hong Tao Jin OffRL LRM 126 0 0 18 May 2025
SEED-GRPO: Semantic Entropy Enhanced GRPO for Uncertainty-Aware Policy Optimization Minghan Chen Guikun Chen Wenguan Wang Yi Yang 94 3 0 18 May 2025
SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning Yang Liu Ming Ma Xiaomin Yu Pengxiang Ding Han Zhao Mingyang Sun Siteng Huang Donglin Wang LRM 199 0 0 18 May 2025
Reward Inside the Model: A Lightweight Hidden-State Reward Model for LLM's Best-of-N sampling Jizhou Guo Zhaomin Wu Philip S. Yu 80 0 0 18 May 2025
Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought Hanlin Zhu Shibo Hao Zhiting Hu Jiantao Jiao Stuart Russell Yuandong Tian OffRL LRM 120 0 0 18 May 2025
Introspective Growth: Automatically Advancing LLM Expertise in Technology Judgment Siyang Wu Honglin Bao Nadav Kunievsky James A. Evans 123 0 0 18 May 2025
MARGE: Improving Math Reasoning for LLMs with Guided Exploration Jingyue Gao Runji Lin Keming Lu Bowen Yu Junyang Lin Jianyu Chen LRM 70 0 0 18 May 2025
How Malicious AI Swarms Can Threaten Democracy Daniel Thilo Schroeder Meeyoung Cha Andrea Baronchelli Nick Bostrom Nicholas A. Christakis ... Audrey Tang Jay Van Bavel S. V. D. Linden Dawn Song Jonas R. Kunst 22 0 0 18 May 2025
InterFeat: An Automated Pipeline for Finding Interesting Hypotheses in Structured Biomedical Data Dan Ofer Michal Linial Dafna Shahaf 89 1 0 18 May 2025
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang 93 1 0 18 May 2025
Towards Budget-Friendly Model-Agnostic Explanation Generation for Large Language Models Junhao Liu Haonan Yu Xin Zhang LRM 183 0 0 18 May 2025
CompBench: Benchmarking Complex Instruction-guided Image Editing Bohan Jia Wenxuan Huang Yuntian Tang Junbo Qiao Jincheng Liao ... Lin Chen Fei Zhao Zihan Wang Yuan Xie Shaohui Lin CoGe 148 1 0 18 May 2025
LLM-BABYBENCH: Understanding and Evaluating Grounded Planning and Reasoning in LLMs Omar Choukrani Idriss Malek Daniil Orel Zhuohan Xie Zangir Iklassov Martin Takáč Salem Lahlou LLMAG ELM LRM 74 0 0 17 May 2025
A Multi-Task Benchmark for Abusive Language Detection in Low-Resource Settings Fitsum Gaim Hoyun Song Huije Lee Changgeon Ko Eui Jun Hwang Jong C. Park 76 0 0 17 May 2025
Exploring Criteria of Loss Reweighting to Enhance LLM Unlearning Puning Yang Qizhou Wang Zhuo Huang Tongliang Liu Chengqi Zhang Bo Han MU 117 0 0 17 May 2025
LoRASuite: Efficient LoRA Adaptation Across Large Language Model Upgrades Yanan Li Fanxu Meng Muhan Zhang Shiai Zhu Shangguang Wang Mengwei Xu MoMe 80 0 0 17 May 2025
HALO: Hierarchical Autonomous Logic-Oriented Orchestration for Multi-Agent LLM Systems Zhipeng Hou Junyi Tang Yipeng Wang LLMAG AI4CE 105 0 0 17 May 2025
Fast RoPE Attention: Combining the Polynomial Method and Fast Fourier Transform Josh Alman Zhao Song 103 16 0 17 May 2025
TinyRS-R1: Compact Multimodal Language Model for Remote Sensing Aybora Koksal A. Aydin Alatan LRM 56 0 0 17 May 2025
Retrospex: Language Agent Meets Offline Reinforcement Learning Critic Yufei Xiang Yiqun Shen Yeqin Zhang Cam-Tu Nguyen OffRL LLMAG KELM LRM 226 3 0 17 May 2025
CoT-Vid: Dynamic Chain-of-Thought Routing with Self Verification for Training-Free Video Reasoning Hongbo Jin Ruyang Liu Wenhao Zhang Guibo Luo Ge Li LRM 103 0 0 17 May 2025
Search-Based Correction of Reasoning Chains for Language Models Minsu Kim Jean-Pierre Falet Oliver E. Richardson Xiaoyin Chen Moksh Jain Sungjin Ahn Sungsoo Ahn Yoshua Bengio KELM ReLM LRM 85 0 0 17 May 2025
LAMP: Extracting Locally Linear Decision Surfaces from LLM World Models Ryan Chen Youngmin Ko Zeyu Zhang Catherine Cho Sunny Chung Mauro Giuffré Dennis L. Shung Bradly C. Stadie 179 0 0 17 May 2025
Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Credit Assignment Siliang Zeng Quan Wei William Brown Oana Frunza Yuriy Nevmyvaka Mingyi Hong LRM 106 2 0 17 May 2025
PRS-Med: Position Reasoning Segmentation with Vision-Language Model in Medical Imaging Quoc-Huy Trinh Minh-Van Nguyen Jung Peng Ulas Bagci Debesh Jha 201 0 0 17 May 2025
Solve-Detect-Verify: Inference-Time Scaling with Flexible Generative Verifier Jianyuan Zhong Zhiyu Li Zhijian Xu Xiangyu Wen Kezhi Li Jianyuan Zhong LRM 64 0 0 17 May 2025
Are vision language models robust to uncertain inputs? Xi Wang Eric Nalisnick AAML VLM Presented at ResearchTrend Connect \| VLM on 18 Jun 2025 144 1 0 17 May 2025
VeriReason: Reinforcement Learning with Testbench Feedback for Reasoning-Enhanced Verilog Generation Yiting Wang Guoheng Sun Wanghao Ye Gang Qu Ang Li OffRL 3DV LRM VLM 82 0 0 17 May 2025
Recursive Question Understanding for Complex Question Answering over Heterogeneous Personal Data Philipp Christmann Gerhard Weikum 78 0 0 17 May 2025
Human-Aligned Bench: Fine-Grained Assessment of Reasoning Ability in MLLMs vs. Humans Yansheng Qiu Li Xiao Zhaopan Xu Pengfei Zhou Zheng Wang Kai Zhang ELM LRM 135 0 0 16 May 2025
SelfBudgeter: Adaptive Token Allocation for Efficient LLM Reasoning Zheng Li Qingxiu Dong Jingyuan Ma Di Zhang Zhifang Sui LRM 74 1 0 16 May 2025
SoLoPO: Unlocking Long-Context Capabilities in LLMs via Short-to-Long Preference Optimization Huashan Sun Shengyi Liao Yansen Han Yu Bai Yang Gao ... Weizhou Shen Fanqi Wan Ming Yan J.N. Zhang Fei Huang 168 0 0 16 May 2025
Navigating the Alpha Jungle: An LLM-Powered MCTS Framework for Formulaic Factor Mining Yu Shi Yitong Duan Jian Li 77 0 0 16 May 2025
From Intent Discovery to Recognition with Topic Modeling and Synthetic Data Aaron Rodrigues Mahmood Hegazy Azzam Naeem AI4TS SyDa 113 0 0 16 May 2025
REMOR: Automated Peer Review Generation with LLM Reasoning and Multi-Objective Reinforcement Learning Pawin Taechoyotin Daniel Acuna LRM 80 0 0 16 May 2025
When Thinking Fails: The Pitfalls of Reasoning for Instruction-Following in LLMs Xiaomin Li Zhou Yu Zhiwei Zhang Xupeng Chen Ziji Zhang Yingying Zhuang Narayanan Sadagopan Anurag Beniwal LRM 100 2 0 16 May 2025
Spectral Policy Optimization: Coloring your Incorrect Reasoning in GRPO Peter Chen Xiaopeng Li Zhiyu Li Xi Chen Tianyi Lin 85 0 0 16 May 2025
Social preferences with unstable interactive reasoning: Large language models in economic trust games Ou Jiamin Eikmans Emile Buskens Vincent Pankowska Paulina Shan Yuli ReLM LRM 66 0 0 16 May 2025
ZeroTuning: Unlocking the Initial Token's Power to Enhance Large Language Models Without Training Feijiang Han Xiaodong Yu Jianheng Tang Lyle Ungar 99 0 0 16 May 2025
HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization Chengyu Huang Zhengxin Zhang Claire Cardie LRM 126 0 0 16 May 2025
Disentangling Reasoning and Knowledge in Medical Large Language Models Rahul Thapa Qingyang Wu Kevin Wu Harrison Zhang Angela Zhang ... Joseph Boen Shriya Reddy Ben Athiwaratkun Shuaiwen Leon Song James Zou ELM AI4MH LM&MA LRM 103 2 0 16 May 2025
DMN-Guided Prompting: A Low-Code Framework for Controlling LLM Behavior Shaghayegh Abedi Amin Jalali 50 0 0 16 May 2025
Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL Songjun Tu Jiahao Lin Qichao Zhang Xiangyu Tian Linjing Li Xiangyuan Lan Dongbin Zhao OffRL ReLM LRM 97 2 0 16 May 2025
Improving the Data-efficiency of Reinforcement Learning by Warm-starting with LLM Thang Duong Minglai Yang Chicheng Zhang OffRL 69 0 0 16 May 2025
SoftCoT++: Test-Time Scaling with Soft Chain-of-Thought Reasoning Yige Xu Xu Guo Zhiwei Zeng Chunyan Miao BDL LRM 146 1 0 16 May 2025
Visual Planning: Let's Think Only with Images Yi Xu Chengzu Li Han Zhou Xingchen Wan Caiqi Zhang Anna Korhonen Ivan Vulić LM&Ro LRM 163 1 0 16 May 2025
Token-Level Uncertainty Estimation for Large Language Model Reasoning Tunyu Zhang Haizhou Shi Yibin Wang Hengyi Wang Xiaoxiao He ... Ligong Han Kai Xu Huatian Zhang Dimitris N. Metaxas Hao Wang LRM 109 0 0 16 May 2025