Title
SHARP: Synthesizing High-quality Aligned Reasoning Problems for Large Reasoning Models Reinforcement Learning Xiong Jun Wu Zhenduo Zhang ZuJie Wen Zhiqiang Zhang Wang Ren ... Xudong Han Chengfu Tang Dingnan Jin Qing Cui Jun Zhou LRM 209 1 0 20 May 2025
Trust Me, I Can Handle It: Self-Generated Adversarial Scenario Extrapolation for Robust Language Models Md Rafi Ur Rashid Vishnu Asutosh Dasu Ye Wang Gang Tan Shagufta Mehnaz AAML ELM 109 0 0 20 May 2025
Text Generation Beyond Discrete Token Sampling Yufan Zhuang Liyuan Liu Chandan Singh Jingbo Shang Jianfeng Gao OOD 165 1 0 20 May 2025
Visionary-R1: Mitigating Shortcuts in Visual Reasoning with Reinforcement Learning Jiaer Xia Yuhang Zang Peng Gao Yixuan Li Kaiyang Zhou OffRL ReLM AI4TS VLM LRM 105 0 0 20 May 2025
TelePlanNet: An AI-Driven Framework for Efficient Telecom Network Planning Zongyuan Deng Yujie Cai Qing Liu Shiyao Mu Bin Lyu Zhen Yang 124 0 0 20 May 2025
Large Language Models for Data Synthesis Yihong Tang Menglin Kong Lijun Sun SyDa 84 1 0 20 May 2025
AAPO: Enhance the Reasoning Capabilities of LLMs with Advantage Momentum Jian Xiong Jingbo Zhou Jingyong Ye Dejing Dou LRM 88 0 0 20 May 2025
General-Reasoner: Advancing LLM Reasoning Across All Domains Xueguang Ma Qian Liu Dongfu Jiang Ge Zhang Zejun Ma Wenhu Chen AI4CE LRM 106 6 0 20 May 2025
Interpretable Traces, Unexpected Outcomes: Investigating the Disconnect in Trace-Based Knowledge Distillation Siddhant Bhambri Upasana Biswas Subbarao Kambhampati 134 1 0 20 May 2025
FOL-Pretrain: A complexity annotated corpus of first-order logic Isabelle Lee Sarah Liaw Dani Yogatama OffRL LRM 24 0 0 20 May 2025
Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model Xue Wang Tian Zhou Jinyang Gao Bolin Ding Jingren Zhou AI4TS AI4CE LRM 12 0 0 20 May 2025
DrugPilot: LLM-based Parameterized Reasoning Agent for Drug Discovery Kun Li Zhennan Wu Shoupeng Wang Wenbin Hu LLMAG LM&MA 58 0 0 20 May 2025
Rank-K: Test-Time Reasoning for Listwise Reranking Eugene Yang Andrew Yates Kathryn Ricci Orion Weller Vivek Chari Benjamin Van Durme Dawn J Lawrie LRM 69 2 0 20 May 2025
Hypothesis on the Functional Advantages of the Selection-Broadcast Cycle Structure: Global Workspace Theory and Dealing with a Real-Time World Junya Nakanishi Jun Baba Yuichiro Yoshikawa Hiroko Kamide Hiroshi Ishiguro 143 0 0 20 May 2025
Scalable Autoregressive 3D Molecule Generation Austin H. Cheng Chong Sun Alán Aspuru-Guzik 95 1 0 20 May 2025
RLVR-World: Training World Models with Reinforcement Learning Jialong Wu Shaofeng Yin Ningya Feng Mingsheng Long OffRL VGen 87 2 0 20 May 2025
Do Language Models Use Their Depth Efficiently? Róbert Csordás Christopher D. Manning Christopher Potts 206 2 0 20 May 2025
DSMentor: Enhancing Data Science Agents with Curriculum Learning and Online Knowledge Accumulation He Wang Alexander Hanbo Li Yiqun Hu Sheng Zhang Hideo Kobayashi Jiani Zhang Henry Zhu Chung-Wei Hang Patrick Ng LLMAG 57 0 0 20 May 2025
Out-of-Distribution Generalization of In-Context Learning: A Low-Dimensional Subspace Perspective Soo Min Kwon Alec S. Xu Can Yaras Laura Balzano Qing Qu OOD 54 1 0 20 May 2025
The Role of Visualization in LLM-Assisted Knowledge Graph Systems: Effects on User Trust, Exploration, and Workflows Harry Li G. Appleby Kenneth Alperin Steven R. Gomez Ashley Suh 38 0 0 20 May 2025
ViPlan: A Benchmark for Visual Planning with Symbolic Predicates and Vision-Language Models Matteo Merler Nicola Dainese Minttu Alakuijala Giovanni Bonetta Pietro Ferrazzi Yu Tian Bernardo Magnini Pekka Marttinen LM&Ro VLM 115 0 0 19 May 2025
GAP: Graph-Assisted Prompts for Dialogue-based Medication Recommendation Jialun Zhong Yanzeng Li Sen Hu Yang Zhang Teng Xu Lei Zou LM&MA 95 0 0 19 May 2025
EAVIT: Efficient and Accurate Human Value Identification from Text data via LLMs Wenhao Zhu Yuhang Xie Guojie Song Xin Zhang 87 0 0 19 May 2025
Optimizing Anytime Reasoning via Budget Relative Policy Optimization Penghui Qi Zichen Liu Tianyu Pang Chao Du W. Lee Min Lin OffRL LRM 102 3 0 19 May 2025
Safety Alignment Can Be Not Superficial With Explicit Safety Signals Jianwei Li Jung-Eng Kim AAML 185 1 0 19 May 2025
On the Thinking-Language Modeling Gap in Large Language Models Chenxi Liu Yongqiang Chen Tongliang Liu James Cheng Bo Han Kun Zhang LRM AI4CE 79 0 0 19 May 2025
Hearing from Silence: Reasoning Audio Descriptions from Silent Videos via Vision-Language Model Yong Ren Chenxing Li Le Xu Hao Gu Duzhen Zhang Yujie Chen Manjie Xu Ruibo Fu Shan Yang Dong Yu LRM 84 0 0 19 May 2025
MindOmni: Unleashing Reasoning Generation in Vision Language Models with RGPO Yicheng Xiao Lin Song Yukang Chen Yingmin Luo Yuxin Chen Yukang Gan Wei Huang Xiu Li Xiaojuan Qi Ying Shan LRM 107 5 0 19 May 2025
SayCoNav: Utilizing Large Language Models for Adaptive Collaboration in Decentralized Multi-Robot Navigation Abhinav Rajvanshi Pritish Sahu Tixiao Shan Karan Sikka Han-Pang Chiu 45 0 0 19 May 2025
Benchmarking and Confidence Evaluation of LALMs For Temporal Reasoning Debarpan Bhattacharya Apoorva Kulkarni Sriram Ganapathy 71 0 0 19 May 2025
CoT-Kinetics: A Theoretical Modeling Assessing LRM Reasoning Process Jinhe Bi Danqi Yan Yifan Wang Wenke Huang Haokun Chen ... Mang Ye Xun Xiao Hinrich Schuetze Volker Tresp Yunpu Ma LRM 111 9 0 19 May 2025
Thinkless: LLM Learns When to Think Gongfan Fang Xinyin Ma Xinchao Wang LLMAG OffRL ReLM LRM 148 3 0 19 May 2025
Guided Search Strategies in Non-Serializable Environments with Applications to Software Engineering Agents Karina Zainullina Alexander Golubev Maria Trofimova Sergei Polezhaev Ibragim Badertdinov ... Filipp Fisin Sergei Skvortsov Maksim Nekrashevich Anton Shevtsov Boris Yangel 62 0 0 19 May 2025
Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately Yuhang Wang Youhe Jiang Tengjiao Wang Fangcheng Fu LRM 86 0 0 19 May 2025
ReEx-SQL: Reasoning with Execution-Aware Reinforcement Learning for Text-to-SQL Yaxun Dai Wenxuan Xie Xialie Zhuang Tianyu Yang Yiying Yang Haiqin Yang Yuhang Zhao Pingfu Chao Wenhao Jiang ReLM LRM 124 0 0 19 May 2025
Seek in the Dark: Reasoning via Test-Time Instance-Level Policy Gradient in Latent Space Hengli Li Chenxi Li Tong Wu Xuekai Zhu Yuxuan Wang ... Eric Hanchen Jiang Song-Chun Zhu Zixia Jia Ying Nian Wu Zilong Zheng LRM 119 1 0 19 May 2025
Incentivizing Truthful Language Models via Peer Elicitation Games Baiting Chen Tong Zhu Jiale Han Lexin Li Gang Li Xiaowu Dai 122 0 0 19 May 2025
A3 : an Analytical Low-Rank Approximation Framework for Attention Jeffrey T. H. Wong Cheng Zhang Xinye Cao Pedro Gimenes George A. Constantinides Wayne Luk Yiren Zhao OffRL MQ 121 1 0 19 May 2025
Prompt Stability Matters: Evaluating and Optimizing Auto-Generated Prompt in General-Purpose Systems Ke Chen Yufei Zhou Xitong Zhang Haohan Wang 100 1 0 19 May 2025
R1dacted: Investigating Local Censorship in DeepSeek's R1 Language Model Ali Naseh Harsh Chaudhari Jaechul Roh Mingshi Wu Alina Oprea Amir Houmansadr AAML ELM 123 2 0 19 May 2025
CoIn: Counting the Invisible Reasoning Tokens in Commercial Opaque LLM APIs Guoheng Sun Ziyao Wang Bowei Tian Meng Liu Zheyu Shen Shwai He Yexiao He Wanghao Ye Yiting Wang Ang Li LRM 58 0 0 19 May 2025
ToTRL: Unlock LLM Tree-of-Thoughts Reasoning Potential through Puzzles Solving Haoyuan Wu Xueyi Chen Rui Ming Jilong Gao Shoubo Hu Zhuolun He Bei Yu LRM 122 0 0 19 May 2025
Make Still Further Progress: Chain of Thoughts for Tabular Data Leaderboard Si-Yang Liu Qile Zhou Han-Jia Ye LMTD LRM 101 0 0 19 May 2025
Know Or Not: a library for evaluating out-of-knowledge base robustness Jessica Foo Pradyumna Shyama Prasad Shaun Khoo 57 0 0 19 May 2025
AutoMathKG: The automated mathematical knowledge graph based on LLM and vector database Rong Bian Yu Geng Zijian Yang Bing Cheng 124 0 0 19 May 2025
Multi-Armed Bandits Meet Large Language Models Djallel Bouneffouf Raphael Feraud 115 0 0 19 May 2025
OPA-Pack: Object-Property-Aware Robotic Bin Packing Jia-Hui Pan Yeok Tatt Cheah Zhengzhe Liu Ka-Hei Hui Xiaojie Gao Pheng-Ann Heng Yun-Hui Liu Chi-Wing Fu 92 0 0 19 May 2025
The Hidden Structure -- Improving Legal Document Understanding Through Explicit Text Formatting Christian Braun Alexander Lilienbeck Daniel Mentjukov AILaw 69 0 0 19 May 2025
RBF++: Quantifying and Optimizing Reasoning Boundaries across Measurable and Unmeasurable Capabilities for Chain-of-Thought Reasoning Qiguang Chen Libo Qin Jinhao Liu Yue Liao Jiaqi Wang Jingxuan Zhou Wanxiang Che LRM 49 0 0 19 May 2025
DisCO: Reinforcing Large Reasoning Models with Discriminative Constrained Optimization Gang Li Ming Lin Tomer Galanti Zhengzhong Tu Tianbao Yang 93 1 0 18 May 2025