Title
Reward-Agnostic Prompt Optimization for Text-to-Image Diffusion Models Semin Kim Yeonwoo Cha Jaehoon Yoo Seunghoon Hong EGVM 43 0 0 20 Jun 2025
Reranking-based Generation for Unbiased Perspective Summarization Narutatsu Ri Nicholas Deas Kathleen McKeown OffRL 28 0 0 19 Jun 2025
Self-Critique-Guided Curiosity Refinement: Enhancing Honesty and Helpfulness in Large Language Models via In-Context Learning Duc Hieu Ho Chenglin Fan HILM LRM 25 0 0 19 Jun 2025
Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute Sheng Liu Tianlang Chen Pan Lu Haotian Ye Yizheng Chen Lei Xing James Zou ReLM LRM 26 0 0 18 Jun 2025
Language Models can perform Single-Utterance Self-Correction of Perturbed Reasoning Sam Silver Jimin Sun Ivan Zhang Sara Hooker Eddie Kim KELM ReLM LRM 35 0 0 18 Jun 2025
SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence Y. Zhang Chenyang Lin Shijie Tang Haokun Chen Shijie Zhou Yunpu Ma Volker Tresp 99 0 0 18 Jun 2025
Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability Yusuke Sakai Hidetaka Kamigaito Taro Watanabe LRM 44 0 0 18 Jun 2025
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents Zijian Zhou Ao Qu Zhaoxuan Wu Sunghwan Kim Alok Prakash Daniela Rus Jinhua Zhao Bryan Kian Hsiang Low Paul Liang LLMAG OffRL LRM 30 0 0 18 Jun 2025
Feedback Friction: LLMs Struggle to Fully Incorporate External Feedback Dongwei Jiang Alvin Zhang Andrew Wang Nicholas Andrews Daniel Khashabi LRM 36 0 0 13 Jun 2025
Simple Radiology VLLM Test-time Scaling with Thought Graph Traversal Yue Yao Zelin Wen Yan Tong Xinyu Tian Xuqing Li Xiao Ma Dongliang Xu Tom Gedeon LRM 26 0 0 13 Jun 2025
OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems Xiaozhe Li Jixuan Chen Xinyu Fang Shengyuan Ding Haodong Duan Qingwen Liu Kai-xiang Chen LLMAG LRM 120 0 0 12 Jun 2025
Primender Sequence: A Novel Mathematical Construct for Testing Symbolic Inference and AI Reasoning Mohd Anwar Jamal Faiz LRM 112 0 0 12 Jun 2025
Harmonizing Geometry and Uncertainty: Diffusion with Hyperspheres Muskan Dosi Chiranjeev Chiranjeev K. Thakral Mayank Vatsa Richa Singh 111 0 0 12 Jun 2025
PAG: Multi-Turn Reinforced LLM Self-Correction with Policy as Generative Verifier Y. Jiang Yuwen Xiong Yufeng Yuan Chao Xin Wenyuan Xu Yu Yue Qianchuan Zhao Lin Yan LRM 135 0 0 12 Jun 2025
How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts? Sohee Yang Sang-Woo Lee Nora Kassner Daniela Gottesman Sebastian Riedel Mor Geva LRM 124 0 0 12 Jun 2025
Textual Bayes: Quantifying Uncertainty in LLM-Based Systems Brendan Leigh Ross Noël Vouitsis Atiyeh Ashari Ghomi Rasa Hosseinzadeh Ji Xin ... Yi Sui Shiyi Hou Kin Kwan Leung Gabriel Loaiza-Ganem Jesse C. Cresswell 80 0 0 11 Jun 2025
Causal Sufficiency and Necessity Improves Chain-of-Thought Reasoning Xiangning Yu Zhuohan Wang Linyi Yang Haoxuan Li Anjie Liu Xiao Xue Jun Wang Mengyue Yang ReLM LRM ELM 91 0 0 11 Jun 2025
Learning to Reason Across Parallel Samples for LLM Reasoning Jianing Qi Xi Ye Hao Tang Zhigang Zhu Eunsol Choi ReLM LRM 33 0 0 10 Jun 2025
Flow Matching Meets PDEs: A Unified Framework for Physics-Constrained Generation Giacomo Baldan Qiang Liu Alberto Guardone Nils Thuerey AI4CE 37 1 0 10 Jun 2025
Reinforce LLM Reasoning through Multi-Agent Reflection Yurun Yuan Tengyang Xie LRM 37 0 0 10 Jun 2025
ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering Yuki Imajuku Kohki Horie Yoichi Iwata Kensho Aoki Naohiro Takahashi Takuya Akiba 25 0 0 10 Jun 2025
AssertBench: A Benchmark for Evaluating Self-Assertion in Large Language Models Jaeho Lee Atharv Chowdhary HILM 47 0 0 08 Jun 2025
Question Answering under Temporal Conflict: Evaluating and Organizing Evolving Knowledge with LLMs Atahan Özer Çağatay Yıldız KELM 30 0 0 08 Jun 2025
Prime the search: Using large language models for guiding geometric task and motion planning by warm-starting tree search Dongryung Lee Sejune Joo Kimin Lee Beomjoon Kim LM&Ro LRM 29 1 0 08 Jun 2025
HauntAttack: When Attack Follows Reasoning as a Shadow Jingyuan Ma Rui Li Zheng Li Junfeng Liu Lei Sha Zhifang Sui AAML LRM 34 0 0 08 Jun 2025
Chain of Methodologies: Scaling Test Time Computation without Training Cong Liu Jie Wu Weigang Wu Xu Chen Liang Lin Wei-Shi Zheng LLMAG LRM AI4CE 44 0 0 08 Jun 2025
United Minds or Isolated Agents? Exploring Coordination of LLMs under Cognitive Load Theory HaoYang Shang Xuan Liu Zi Liang J. Zhang Haibo Hu Song Guo LLMAG 38 0 0 07 Jun 2025
Boosting LLM Reasoning via Spontaneous Self-Correction Xutong Zhao Tengyu Xu Xuewei Wang Zhengxing Chen Di Jin ... Yun He Sinong Wang Han Fang Sarath Chandar Chen Zhu ReLM LRM KELM 38 0 0 07 Jun 2025
Generating Grounded Responses to Counter Misinformation via Learning Efficient Fine-Grained Critiques Xiaofei Xu Xiuzhen Zhang Ke Deng HILM 62 0 0 06 Jun 2025
SPARTA ALIGNMENT: Collectively Aligning Multiple Language Models through Combat Yuru Jiang Wenxuan Ding Shangbin Feng Greg Durrett Yulia Tsvetkov 99 0 0 05 Jun 2025
ProRefine: Inference-time Prompt Refinement with Textual Feedback Deepak Pandita Tharindu Cyril Weerasooriya A. Shah Christopher Homan Wei Wei LLMAG ReLM LRM 158 0 0 05 Jun 2025
ScaleRTL: Scaling LLMs with Reasoning Data and Test-Time Compute for Accurate RTL Code Generation Chenhui Deng Yun-Da Tsai Guan-Ting Liu Zhongzhi Yu Haoxing Ren LLMAG LRM 59 1 0 05 Jun 2025
Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning Zhiyuan Ma Jiayu Liu Xianzhen Luo Zhenya Huang Qingfu Zhu Wanxiang Che LLMAG 222 0 0 05 Jun 2025
Sample Complexity and Representation Ability of Test-time Scaling Paradigms Baihe Huang Shanda Li Tianhao Wu Yiming Yang Ameet Talwalkar Kannan Ramchandran Michael I. Jordan Jiantao Jiao LRM 126 0 0 05 Jun 2025
EPiC: Towards Lossless Speedup for Reasoning Training through Edge-Preserving CoT Condensation Jinghan Jia Hadi Reisizadeh Chongyu Fan Nathalie Baracaldo Mingyi Hong Sijia Liu LRM 142 0 0 04 Jun 2025
EvaLearn: Quantifying the Learning Capability and Efficiency of LLMs via Sequential Problem Solving Shihan Dou Ming Zhang Chenhao Huang Jiayi Chen F. Chen ... Wei Chengzhi Lin Yan Qi Zhang Xuanjing Huang Xuanjing Huang ELM 94 0 0 03 Jun 2025
Understanding Gender Bias in AI-Generated Product Descriptions Markelle Kelly Mohammad Tahaei Padhraic Smyth Lauren Wilcox 31 0 0 03 Jun 2025
SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning Zhongwei Wan Zhihao Dou Che Liu Yu Zhang Dongfei Cui ... Yifan Jiang Yangfan He Mi Zhang Shen Yan Shen Yan LRM 110 1 0 02 Jun 2025
Incentivizing LLMs to Self-Verify Their Answers Fuxiang Zhang Jiacheng Xu Chaojie Wang Ce Cui Yang Liu Bo An ReLM LRM 65 0 0 02 Jun 2025
TurnBench-MS: A Benchmark for Evaluating Multi-Turn, Multi-Step Reasoning in Large Language Models Yiran Zhang Mo Wang Xiaoyang Li Kaixuan Ren Chencheng Zhu Usman Naseem LRM 79 0 0 02 Jun 2025
Reflection-Based Memory For Web navigation Agents Ruhana Azam Aditya Vempaty A. Jagmohan 22 0 0 02 Jun 2025
KG-TRACES: Enhancing Large Language Models with Knowledge Graph-constrained Trajectory Reasoning and Attribution Supervision Rong Wu Pinlong Cai Jianbiao Mei Licheng Wen T. Hu X. J. Yang Daocheng Fu Botian Shi LRM 70 0 0 01 Jun 2025
From Objectives to Questions: A Planning-based Framework for Educational Mathematical Question Generation Cheng Cheng Z. Huang Guanhao Zhao Yuxiang Guo Xin Lin J. Wu Xin Li Shijin Wang 51 0 0 01 Jun 2025
Conformal Arbitrage: Risk-Controlled Balancing of Competing Objectives in Language Models William Overman Mohsen Bayati 46 0 0 01 Jun 2025
Aligning VLM Assistants with Personalized Situated Cognition Yongqi Li Shen Zhou Xiaohu Li Xin Miao Jintao Wen ... Birong Pan Hankun Kang Yuanyuan Zhu Ming Zhong T. Qian 43 0 0 01 Jun 2025
GuessBench: Sensemaking Multimodal Creativity in the Wild Zifeng Zhu Shangbin Feng Herun Wan Ningnan Wang Minnan Luo Yulia Tsvetkov MLLM CoGe VLM 91 0 0 01 Jun 2025
SkillVerse : Assessing and Enhancing LLMs with Tree Evaluation Yufei Tian Jiao Sun Nanyun Peng Zizhao Zhang 40 0 0 31 May 2025
Qwen Look Again: Guiding Vision-Language Reasoning Models to Re-attention Visual Information Xu Chu Xinrong Chen Guanyu Wang Zhijie Tan Kui Huang Wenyu Lv Tong Mo Weiping Li LRM VLM 108 0 0 29 May 2025
Revisiting Multi-Agent Debate as Test-Time Scaling: A Systematic Study of Conditional Effectiveness Yongjin Yang Euiin Yi Jongwoo Ko Kimin Lee Zhijing Jin Se-Young Yun LLMAG 64 0 0 29 May 2025
Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration Yilong Li Chen Qian Yu Xia Ruijie Shi Yufan Dang ... Ye Tian Xuantang Xiong Lei Han Zhiyuan Liu Maosong Sun LLMAG 85 0 0 29 May 2025