Title
Think Before You Segment: High-Quality Reasoning Segmentation with GPT Chain of Thoughts Shiu-hong Kao Yu-Wing Tai Chi-Keung Tang MLLM LRM 283 1 0 01 Jul 2025
ThinkVideo: High-Quality Reasoning Video Segmentation with Chain of Thoughts Shiu-hong Kao Yu-Wing Tai Chi-Keung Tang VOS MLLM VGen LRM 105 0 0 01 Jul 2025
Reward-Agnostic Prompt Optimization for Text-to-Image Diffusion Models Semin Kim Yeonwoo Cha Jaehoon Yoo Seunghoon Hong EGVM 30 0 0 20 Jun 2025
When Can Model-Free Reinforcement Learning be Enough for Thinking? Josiah P. Hanna Nicholas Corrado OffRL LM&Ro ReLM LRM AI4CE 31 0 0 20 Jun 2025
Chain-of-Thought Prompting Obscures Hallucination Cues in Large Language Models: An Empirical Evaluation Jiahao Cheng Tiancheng Su Jia Yuan Guoxiu He Jiawei Liu Xinqi Tao Jingwen Xie Huaxia Li HILM LRM 26 0 0 20 Jun 2025
Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs Haoran Sun Yankai Jiang Wenjie Lou Yujie Zhang Wenjie Li Lilong Wang Mianxin Liu Lei Liu Xiaosong Wang LRM 15 0 0 20 Jun 2025
Towards Effective Complementary Security Analysis using Large Language Models Jonas Wagner Simon Müller Christian Näther Jan-Philipp Steghöfer Andreas Both 17 0 0 20 Jun 2025
Reranking-based Generation for Unbiased Perspective Summarization Narutatsu Ri Nicholas Deas Kathleen McKeown OffRL 24 0 0 19 Jun 2025
DynScaling: Efficient Verifier-free Inference Scaling via Dynamic and Integrated Sampling Fei Wang Xingchen Wan Ruoxi Sun Jiefeng Chen Sercan Ö. Arık LRM 18 0 0 19 Jun 2025
GeoGuess: Multimodal Reasoning based on Hierarchy of Visual Information in Street View Fenghua Cheng Jinxiang Wang Sen Wang Zi Huang Xue Li LRM 24 0 0 19 Jun 2025
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute Sheng Liu Tianlang Chen Pan Lu Haotian Ye Yizheng Chen Lei Xing James Zou ReLM LRM 17 0 0 18 Jun 2025
SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling Md Imbesat Hassan Rizvi Xiaodan Zhu Iryna Gurevych LRM 37 0 0 18 Jun 2025
HeurAgenix: Leveraging LLMs for Solving Complex Combinatorial Optimization Challenges Xianliang Yang Ling Zhang Haolong Qian Lei Song Jiang Bian 19 0 0 18 Jun 2025
CC-LEARN: Cohort-based Consistency Learning Xiao Ye Shaswat Shrivastava Zhaonan Li Jacob Dineen Shijie Lu Avneet Ahuja Ming shen Zhikun Xu Ben Zhou OffRL LRM 43 0 0 18 Jun 2025
MoR: Better Handling Diverse Queries with a Mixture of Sparse, Dense, and Human Retrievers Jushaan Singh Kalra Xinran Zhao To Eun Kim Fengyu Cai Fernando Diaz Tongshuang Wu VLM 20 0 0 18 Jun 2025
Casper: Inferring Diverse Intents for Assistive Teleoperation with Vision Language Models Huihan Liu Rutav Shah Shuijing Liu Jack Pittenger Mingyo Seo Yuchen Cui Yonatan Bisk Roberto Martín-Martín Yuke Zhu 32 0 0 17 Jun 2025
MIST: Towards Multi-dimensional Implicit Bias and Stereotype Evaluation of LLMs via Theory of Mind Yanlin Li Hao Liu Huimin Liu Y. X. Wei Yupeng Hu 32 0 0 17 Jun 2025
Doppelganger Method: Breaking Role Consistency in LLM Agent via Prompt-based Transferable Adversarial Attack Daewon Kang YeongHwan Shin Doyeon Kim Kyu-Hwan Jung Meong Hi Son AAML SILM 63 0 0 17 Jun 2025
ConsistencyChecker: Tree-based Evaluation of LLM Generalization Capabilities Zhaochen Hong Haofei Yu Jiaxuan You 20 0 0 14 Jun 2025
Collaborative LLM Inference via Planning for Efficient Reasoning Byeongchan Lee Jonghoon Lee Dongyoung Kim Jaehyung Kim Jinwoo Shin LRM 26 0 0 13 Jun 2025
Accelerating Diffusion Large Language Models with SlowFast Sampling: The Three Golden Principles Qingyan Wei Y. Zhang Zhiyuan Liu Dongrui Liu Linfeng Zhang DiffM AI4CE 143 0 0 12 Jun 2025
SoK: Evaluating Jailbreak Guardrails for Large Language Models Xunguang Wang Zhenlan Ji Wenxuan Wang Zongjie Li Daoyuan Wu Shuai Wang 132 0 0 12 Jun 2025
PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier Y. Jiang Yuwen Xiong Yufeng Yuan Chao Xin Wenyuan Xu Yu Yue Qianchuan Zhao Lin Yan LRM 114 0 0 12 Jun 2025
Causal Sufficiency and Necessity Improves Chain-of-Thought Reasoning Xiangning Yu Zhuohan Wang Linyi Yang Haoxuan Li Anjie Liu Xiao Xue Jun Wang Mengyue Yang ReLM LRM ELM 77 0 0 11 Jun 2025
Textual Bayes: Quantifying Uncertainty in LLM-Based Systems Brendan Leigh Ross Noël Vouitsis Atiyeh Ashari Ghomi Rasa Hosseinzadeh Ji Xin ... Yi Sui Shiyi Hou Kin Kwan Leung Gabriel Loaiza-Ganem Jesse C. Cresswell 72 0 0 11 Jun 2025
Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation Xinyu Yang Yuwei An Hongyi Liu Tianqi Chen Beidi Chen SyDa LRM 147 0 0 11 Jun 2025
Athena: Enhancing Multimodal Reasoning with Data-efficient Process Reward Models Shuai Wang Zhenhua Liu Jiaheng Wei Xuanwu Yin Dong Li E. Barsoum LRM 82 0 0 11 Jun 2025
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs Xiyao Wang Zhengyuan Yang Chao Feng Yongyuan Liang Yuhang Zhou ... Chung-Ching Lin Kevin Lin Linjie Li Furong Huang L. xilinx Wang OffRL LRM 64 0 0 11 Jun 2025
Transforming Expert Knowledge into Scalable Ontology via Large Language Models Ikkei Itoku David Theil Evelyn Eichelsdoerfer Uehara S. Bhaduri Junnosuke Kuroda Toshi Yumoto Alex Gil Natalie Perez Rajesh Kumar Cherukuri Naumaan Nayyar 48 0 0 10 Jun 2025
How Good LLM-Generated Password Policies Are? Vivek Vaidya Aditya Patwardhan Ashish Kundu 40 0 0 10 Jun 2025
FinHEAR: Human Expertise and Adaptive Risk-Aware Temporal Reasoning for Financial Decision-Making Jiaxiang Chen Mingxi Zou Zhuo Wang Qifan Wang Dongning Sun Chi Zhang Zenglin Xu AIFin 55 0 0 10 Jun 2025
MEMETRON: Metaheuristic Mechanisms for Test-time Response Optimization of Large Language Models S. Nguyen Theja Tulabandhula 25 0 0 10 Jun 2025
Learning to Reason Across Parallel Samples for LLM Reasoning Jianing Qi Xi Ye Hao Tang Zhigang Zhu Eunsol Choi ReLM LRM 22 0 0 10 Jun 2025
Sample Efficient Demonstration Selection for In-Context Learning Kiran Purohit Venktesh V Sourangshu Bhattacharya Avishek Anand 43 0 0 10 Jun 2025
Flow Matching Meets PDEs: A Unified Framework for Physics-Constrained Generation Giacomo Baldan Qiang Liu Alberto Guardone Nils Thuerey AI4CE 30 1 0 10 Jun 2025
VReST: Enhancing Reasoning in Large Vision-Language Models through Tree Search and Self-Reward Mechanism Congzhi Zhang Jiawei Peng Zhenglin Wang Yilong Lai Haowen Sun Heng Chang Fei Ma Weijiang Yu ReLM LRM 21 0 0 10 Jun 2025
e3: Learning to Explore Enables Extrapolation of Test-Time Compute for LLMs Amrith Rajagopal Setlur Matthew Y. R. Yang Charlie Snell Jeremy Greer Ian Wu Virginia Smith Max Simchowitz Aviral Kumar LRM 38 0 0 10 Jun 2025
Efficient Post-Training Refinement of Latent Reasoning in Large Language Models Xinyuan Wang Dongjie Wang Wangyang Ying Haoyue Bai Nanxu Gong Sixun Dong Kunpeng Liu Yanjie Fu ReLM LRM 51 0 0 10 Jun 2025
Reinforce LLM Reasoning through Multi-Agent Reflection Yurun Yuan Tengyang Xie LRM 27 0 0 10 Jun 2025
Video-CoT: A Comprehensive Dataset for Spatiotemporal Understanding of Videos Based on Chain-of-Thought Shuyi Zhang Xiaoshuai Hao Yingbo Tang Lingfeng Zhang Pengwei Wang Zhongyuan Wang Hongxuan Ma Shanghang Zhang VGen AI4TS 55 0 0 10 Jun 2025
SEED: Enhancing Text-to-SQL Performance and Practical Usability Through Automatic Evidence Generation Janghyeon Yun Sang-goo Lee 15 0 0 09 Jun 2025
From Debate to Equilibrium: Belief-Driven Multi-Agent LLM Reasoning via Bayesian Nash Equilibrium Xie Yi Zhanke Zhou Chentao Cao Qiyu Niu Tongliang Liu Bo Han 23 0 0 09 Jun 2025
Temporalizing Confidence: Evaluation of Chain-of-Thought Reasoning with Signal Temporal Logic Zhenjiang Mao Artem Bisliouk Rohith Reddy Nama Ivan Ruchkin ReLM LRM 25 0 0 09 Jun 2025
Chain of Methodologies: Scaling Test Time Computation without Training Cong Liu Jie Wu Weigang Wu Xu Chen Liang Lin Wei-Shi Zheng LLMAG LRM AI4CE 30 0 0 08 Jun 2025
Evaluating and Improving Robustness in Large Language Models: A Survey and Future Directions Kun Zhang Le Wu Kui Yu Guangyi Lv Dacao Zhang AAML ELM 32 0 0 08 Jun 2025
Semantic-preserved Augmentation with Confidence-weighted Fine-tuning for Aspect Category Sentiment Analysis Yaping Chai Haoran Xie J. Qin 25 0 0 08 Jun 2025
Tokenized Bandit for LLM Decoding and Alignment Suho Shin Chenghao Yang Haifeng Xu Mohammad T. Hajiaghayi 28 0 0 08 Jun 2025
How Far Are We from Optimal Reasoning Efficiency? Jiaxuan Gao Shu Yan Qixin Tan Lu Yang Shusheng Xu Wei Fu Zhiyu Mei Kaifeng Lyu Yi Wu LRM 27 0 0 08 Jun 2025
An Agentic Framework for Autonomous Metamaterial Modeling and Inverse Design Darui Lu Jordan M. Malof Willie J. Padilla AI4CE 30 0 0 07 Jun 2025
Token Signature: Predicting Chain-of-Thought Gains with Token Decoding Feature in Large Language Models Peijie Liu Fengli Xu Yong Li LRM 55 0 0 06 Jun 2025