Title
Evaluating Step-by-step Reasoning Traces: A Survey Jinu Lee Julia Hockenmaier LRM ELM 155 2 0 17 Feb 2025
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis Wenbo Zhang Hengrui Cai Wenyu Chen 110 1 0 17 Feb 2025
Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models Jongho Kim Seung-won Hwang LRM AI4CE 163 1 0 17 Feb 2025
Learning to Reason from Feedback at Test-Time Yanyang Li Michael R. Lyu Liwei Wang LRM 120 4 0 16 Feb 2025
SCALE: Towards Collaborative Content Analysis in Social Science with Large Language Model Agents and Human Intervention Chengshuai Zhao Zhen Tan Chau-Wai Wong Xinyan Zhao Tianlong Chen Huan Liu LLMAG 100 2 0 16 Feb 2025
Uncertainty-Aware Step-wise Verification with Generative Reward Models Zihuiwen Ye Luckeciano C. Melo Younesse Kaddar Phil Blunsom Shivalika Singh Yarin Gal LRM 147 5 0 16 Feb 2025
PCGRLLM: Large Language Model-Driven Reward Design for Procedural Content Generation Reinforcement Learning In-Chang Baek Sung-Hyun Kim Sam Earle Zehua Jiang Noh Jin-Ha Julian Togelius Kyung-Joong Kim 80 2 0 15 Feb 2025
Divergent Thoughts toward One Goal: LLM-based Multi-Agent Collaboration System for Electronic Design Automation Haoyuan Wu Haisheng Zheng Zhuolun He Bei Yu 104 1 0 15 Feb 2025
A Self-Supervised Reinforcement Learning Approach for Fine-Tuning Large Language Models Using Cross-Attention Signals Andrew Kiruluta Andreas Lemos Priscilla Burity 156 3 0 14 Feb 2025
Typhoon T1: An Open Thai Reasoning Model Pittawat Taveekitworachai Potsawee Manakul Kasima Tharnpipitchai Kunat Pipatanakul OffRL LRM 276 0 0 13 Feb 2025
Unleashing the Power of Large Language Model for Denoising Recommendation Shuyao Wang Zhi Zheng Yongduo Sui Hui Xiong 192 0 0 13 Feb 2025
SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models Daniel Fleischer Moshe Berchansky Gad Markovits Moshe Wasserblat ReLM ELM LRM 160 0 0 13 Feb 2025
From Haystack to Needle: Label Space Reduction for Zero-shot Classification Nathan Vandemoortele Bram Steenwinckel F. Ongenae Sofie Van Hoecke VLM 93 0 0 12 Feb 2025
Fostering Appropriate Reliance on Large Language Models: The Role of Explanations, Sources, and Inconsistencies Sunnie S. Y. Kim J. Vaughan Q. V. Liao Tania Lombrozo Olga Russakovsky 235 7 0 12 Feb 2025
When More is Less: Understanding Chain-of-Thought Length in LLMs Yuyang Wu Yifei Wang Tianqi Du Stefanie Jegelka Yisen Wang Yisen Wang LRM 158 51 0 11 Feb 2025
EvoFlow: Evolving Diverse Agentic Workflows On The Fly Guibin Zhang Kaijie Chen Guancheng Wan Heng Chang Hong Cheng Kaidi Wang Shuyue Hu Lei Bai 255 6 0 11 Feb 2025
Bag of Tricks for Inference-time Computation of LLM Reasoning Fan Liu Wenshuo Chao Naiqiang Tan Hao Liu OffRL LRM 173 5 0 11 Feb 2025
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations Kaixuan Huang Jiacheng Guo Zihao Li X. Ji Jiawei Ge ... Yangsibo Huang Chi Jin Xinyun Chen Chiyuan Zhang Mengdi Wang AAML LRM 243 17 0 10 Feb 2025
Examining False Positives under Inference Scaling for Mathematical Reasoning Yu Guang Wang Nan Yang Liang Wang Furu Wei LRM 144 4 0 10 Feb 2025
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates L. Yang Zhaochen Yu Tengjiao Wang Mengdi Wang ReLM LRM AI4CE 185 18 0 10 Feb 2025
VersaPRM: Multi-Domain Process Reward Model via Synthetic Reasoning Data Thomas Zeng Shuibai Zhang Shutong Wu Christian Classen Daewon Chae ... Jungtaek Kim H. Koo Kannan Ramchandran Dimitris Papailiopoulos Kangwook Lee LRM 113 4 0 10 Feb 2025
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging Md. Ashraful Islam Mohammed Eunus Ali Md. Rizwan Parvez LLMAG 161 4 0 08 Feb 2025
Confidence Elicitation: A New Attack Vector for Large Language Models Brian Formento Chuan-Sheng Foo See-Kiong Ng AAML 268 0 0 07 Feb 2025
Optimizing Temperature for Language Models with Multi-Sample Inference Weihua Du Yiming Yang Sean Welleck 164 4 0 07 Feb 2025
Multi-agent Architecture Search via Agentic Supernet Guibin Zhang Luyang Niu Sihang Li Kaidi Wang Lei Bai Xinyu Wang 218 16 0 06 Feb 2025
MultiQ&A: An Analysis in Measuring Robustness via Automated Crowdsourcing of Question Perturbations and Answers Nicole Cho William Watson AAML HILM 286 0 0 06 Feb 2025
Disproving Program Equivalence with LLMs Miltiadis Allamanis Pengcheng Yin 170 0 0 05 Feb 2025
Teaching Large Language Models Number-Focused Headline Generation With Key Element Rationales Zhen Qian Xiuzhen Zhang Xiaofei Xu Xiwei Xu LRM 72 0 0 05 Feb 2025
Reasoning-as-Logic-Units: Scaling Test-Time Reasoning in Large Language Models Through Logic Unit Alignment Cheryl Li Tianyuan Xu Yiwen Guo LRM 481 3 0 05 Feb 2025
Are Language Models Up to Sequential Optimization Problems? From Evaluation to a Hegelian-Inspired Enhancement Soheil Abbasloo LRM 70 0 0 04 Feb 2025
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search Maohao Shen Guangtao Zeng Zhenting Qi Zhang-Wei Hong Zhenfang Chen Wei Lu G. Wornell Subhro Das David D. Cox Chuang Gan LRM LLMAG 561 18 0 04 Feb 2025
Policy Guided Tree Search for Enhanced LLM Reasoning Yang Li LRM 196 0 0 04 Feb 2025
Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges Nayoung Lee Ziyang Cai Avi Schwarzschild Kangwook Lee Dimitris Papailiopoulos ReLM VLM LRM AI4CE 166 7 0 03 Feb 2025
Learning to Generate Unit Tests for Automated Debugging Archiki Prasad Elias Stengel-Eskin Justin Chih-Yao Chen Zaid Khan Joey Tianyi Zhou ELM 174 4 0 03 Feb 2025
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial? Wenzhe Li Yong Lin Mengzhou Xia Chi Jin MoE 148 4 0 02 Feb 2025
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models Xin Xu Qiyun Xu Tong Xiao Tianhao Chen Yuchen Yan Jiaxin Zhang Shizhe Diao Can Yang Yang Wang LRM AI4CE ELM 282 8 0 01 Feb 2025
TableMaster: A Recipe to Advance Table Understanding with Language Models Lang Cao Hanbing Liu LMTD RALM 559 4 1 31 Jan 2025
Ensembles of Low-Rank Expert Adapters Yinghao Li Vianne Gao Chao Zhang MohamadAli Torkamani 169 0 0 31 Jan 2025
Diverse Preference Optimization Jack Lanchantin Angelica Chen Shehzaad Dhuliawala Ping Yu Jason Weston Sainbayar Sukhbaatar Ilia Kulikov 245 4 0 30 Jan 2025
CALM: Unleashing the Cross-Lingual Self-Aligning Ability of Language Model Question Answering Yumeng Wang Zhiyuan Fan Q. Wang May Fung Heng Ji 168 4 0 30 Jan 2025
CueTip: An Interactive and Explainable Physics-aware Pool Assistant Sean Memery Kevin Denamganai Jiaxin Zhang Zehai Tu Yiwen Guo Kartic Subr LRM 101 0 0 30 Jan 2025
On The Truthfulness of 'Surprisingly Likely' Responses of Large Language Models Naman Goel HILM 127 0 0 28 Jan 2025
From Critique to Clarity: A Pathway to Faithful and Personalized Code Explanations with Large Language Models Zexing Xu Zhuang Luo Yichuan Li Kyumin Lee S. Rasoul Etesami 119 1 0 28 Jan 2025
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning Yanfang Zhang Yiliu Sun Yibing Zhan Dapeng Tao Dacheng Tao Chen Gong LRM AI4CE LLMAG 165 2 0 28 Jan 2025
Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models Jingwei Yi Yueqi Xie Bin Zhu Emre Kiciman Guangzhong Sun Xing Xie Fangzhao Wu AAML 180 82 0 28 Jan 2025
Will Systems of LLM Agents Cooperate: An Investigation into a Social Dilemma Richard Willis Yali Du Joel Z Leibo Michael Luck 129 3 0 28 Jan 2025
Irony Detection, Reasoning and Understanding in Zero-shot Learning Peiling Yi Yuhan Xia Yunfei Long 138 0 0 28 Jan 2025
Option-ID Based Elimination For Multiple Choice Questions Zhenhao Zhu Bulou Liu Qingyao Ai Yang Liu 135 0 0 25 Jan 2025
CodeMonkeys: Scaling Test-Time Compute for Software Engineering Ryan Ehrlich Bradley Brown Jordan Juravsky Ronald Clark Christopher Ré Azalia Mirhoseini 103 11 0 24 Jan 2025
Is Long Context All You Need? Leveraging LLM's Extended Context for NL2SQL Yeounoh Chung Gaurav Tarlok Kakkar Yu Gan Brenton Milne Fatma Ozcan RALM 192 6 0 21 Jan 2025