Title
AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification Xuan Zhang Yongliang Shen Zhe Zheng Linjuan Wu Wenqi Zhang Yuchen Yan Qiuying Peng Jun Wang Weiming Lu KELM 185 2 0 03 Mar 2025
Instruct-of-Reflection: Enhancing Large Language Models Iterative Reflection Capabilities via Dynamic-Meta Instruction Liping Liu Chunhong Zhang Likang Wu Chuang Zhao Zheng Hu Ming He Jianping Fan LLMAG LRM 78 2 0 02 Mar 2025
Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing Juntai Cao Xiang Zhang Raymond Li Chuyuan Li Shafiq Joty Shafiq Joty Giuseppe Carenini 189 2 0 27 Feb 2025
ConvCodeWorld: Benchmarking Conversational Code Generation in Reproducible Feedback Environments Hojae Han Seung-won Hwang Rajhans Samdani Yuxiong He ALM 117 4 0 27 Feb 2025
Voting or Consensus? Decision-Making in Multi-Agent Debate Lars Benedikt Kaesberg Jonas Becker Jan Philip Wahle Terry Ruas Bela Gipp 148 7 0 26 Feb 2025
CritiQ: Mining Data Quality Criteria from Human Preferences Honglin Guo Kai Lv Qipeng Guo Tianyi Liang Zhiheng Xi ... Qiuyinzhe Zhang Yizhou Sun Kai Chen Xipeng Qiu Tao Gui 74 0 0 26 Feb 2025
Towards Enhanced Immersion and Agency for LLM-based Interactive Drama Hongqiu Wu Weiqi Wu Tianyang Xu Jiameng Zhang Hai Zhao AI4CE 126 0 0 25 Feb 2025
Enhancing Text Classification with a Novel Multi-Agent Collaboration Framework Leveraging BERT Hediyeh Baban Sai A Pidapar Aashutosh Nema Sichen Lu LLMAG 134 0 0 25 Feb 2025
FACT-AUDIT: An Adaptive Multi-Agent Framework for Dynamic Fact-Checking Evaluation of Large Language Models Hongzhan Lin Yang Deng Yuxuan Gu Wenxuan Zhang Jing Ma See-Kiong Ng Tat-Seng Chua LLMAG KELM HILM 148 1 0 25 Feb 2025
Construction and Evaluation of LLM-based agents for Semi-Autonomous penetration testing Masaya Kobayashi Masane Fuchi Amar Zanashir Tomonori Yoneda Tomohiro Takagi LLMAG 126 2 0 24 Feb 2025
Culture-TRIP: Culturally-Aware Text-to-Image Generation with Iterative Prompt Refinement Suchae Jeong Inseong Choi Youngsik Yun Jihie Kim DiffM 146 2 0 24 Feb 2025
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation Yunhai Feng Jiaming Han Zhiyong Yang Xiangyu Yue Sergey Levine Jianlan Luo LM&Ro 134 7 0 23 Feb 2025
Be a Multitude to Itself: A Prompt Evolution Framework for Red Teaming Rui Li Peiyi Wang Jingyuan Ma Di Zhang Lei Sha Zhifang Sui LLMAG 164 0 0 22 Feb 2025
Patterns Over Principles: The Fragility of Inductive Reasoning in LLMs under Noisy Observations Chunyang Li Weiqi Wang Tianshi Zheng Yangqiu Song LRM 140 6 0 22 Feb 2025
Optimizing Model Selection for Compound AI Systems Lingjiao Chen Jared Quincy Davis Boris Hanin Peter Bailis Matei A. Zaharia James Zou Ion Stoica 126 4 0 20 Feb 2025
How Efficient is LLM-Generated Code? A Rigorous & High-Standard Benchmark Ruizhong Qiu Weiliang Will Zeng Hanghang Tong James Ezick Christopher Lott 214 23 0 20 Feb 2025
SIFT: Grounding LLM Reasoning in Contexts via Stickers Zihao Zeng Xuyao Huang Boxiu Li Zhijie Deng LRM 72 2 0 19 Feb 2025
Think Inside the JSON: Reinforcement Strategy for Strict LLM Schema Adherence Bhavik Agarwal Ishan Joshi Viktoria Rojkova AI4TS OffRL LRM 88 3 0 18 Feb 2025
A Cognitive Writing Perspective for Constrained Long-Form Text Generation Kaiyang Wan Honglin Mu Rui Hao Haoran Luo Tianle Gu Xiuying Chen ALM 128 1 0 18 Feb 2025
S $^2$ R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning Ruotian Ma Peisong Wang Cheng Liu Xingyan Liu Jiaqi Chen Bang Zhang Xin Zhou Nan Du Jia Li LRM 128 4 0 18 Feb 2025
Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking Junda Zhu Lingyong Yan Shuaiqiang Wang Dawei Yin Lei Sha AAML LRM 126 6 0 18 Feb 2025
You need to MIMIC to get FAME: Solving Meeting Transcript Scarcity with a Multi-Agent Conversations Frederic Kirstein Muneeb Khan Jan Philip Wahle Terry Ruas Bela Gipp 60 0 0 18 Feb 2025
ReviewEval: An Evaluation Framework for AI-Generated Reviews Chavvi Kirtani Madhav Krishan Garg Tejash Prasad Tanmay Singhal Murari Mandal Dhruv Kumar 120 1 0 17 Feb 2025
RePrompt: Planning by Automatic Prompt Engineering for Large Language Models Agents Weizhe Chen Sven Koenig B. Dilkina LLMAG 214 12 0 17 Feb 2025
The Validation Gap: A Mechanistic Analysis of How Language Models Compute Arithmetic but Fail to Validate It Leonardo Bertolazzi Philipp Mondorf Yun Xue Raffaella Bernardi AIFin LRM 131 0 0 17 Feb 2025
Table-Critic: A Multi-Agent Framework for Collaborative Criticism and Refinement in Table Reasoning Peiying Yu Guoxin Chen Jingjing Wang LLMAG LMTD LRM 142 8 0 17 Feb 2025
Hypothesis-Driven Theory-of-Mind Reasoning for Large Language Models Hyunwoo Kim Melanie Sclar Tan Zhi-Xuan Lance Ying Sydney Levine Yang Liu Joshua B. Tenenbaum Yejin Choi LRM LLMAG 119 3 0 17 Feb 2025
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? Zhiyuan Zeng Qinyuan Cheng Zhangyue Yin Yunhua Zhou Xipeng Qiu LRM 189 20 0 17 Feb 2025
Counterfactual-Consistency Prompting for Relative Temporal Understanding in Large Language Models Jongho Kim Seung-won Hwang LRM AI4CE 180 1 0 17 Feb 2025
Flaming-hot Initiation with Regular Execution Sampling for Large Language Models Weizhe Chen Zhicheng Zhang Guanlin Liu Renjie Zheng Wenlei Shi Chen Dun Zheng Wu Xing Jin Lin Yan ALM LRM 187 3 0 17 Feb 2025
Learning to Reason from Feedback at Test-Time Yanyang Li Michael R. Lyu Liwei Wang LRM 138 4 0 16 Feb 2025
Has My System Prompt Been Used? Large Language Model Prompt Membership Inference Roman Levin Valeriia Cherepanova Abhimanyu Hans Avi Schwarzschild Tom Goldstein 423 1 0 14 Feb 2025
RefineCoder: Iterative Improving of Large Language Models via Adaptive Critique Refinement for Code Generation C. Zhou Xinyu Zhang Dandan Song Xiancai Chen Wanli Gu Huipeng Ma Yuhang Tian Hao Fei Linmei Hu 98 2 0 13 Feb 2025
EvoFlow: Evolving Diverse Agentic Workflows On The Fly Guibin Zhang Kaijie Chen Guancheng Wan Heng Chang Hong Cheng Kaidi Wang Shuyue Hu Lei Bai 294 6 0 11 Feb 2025
Bag of Tricks for Inference-time Computation of LLM Reasoning Fan Liu Wenshuo Chao Naiqiang Tan Hao Liu OffRL LRM 203 5 0 11 Feb 2025
InSTA: Towards Internet-Scale Training For Agents Brandon Trabucco Gunnar Sigurdsson Robinson Piramuthu Ruslan Salakhutdinov ALM 216 4 0 10 Feb 2025
Iterative Deepening Sampling as Efficient Test-Time Scaling Weizhe Chen Sven Koenig B. Dilkina LRM ReLM 158 1 0 08 Feb 2025
Safety Reasoning with Guidelines Haoyu Wang Zeyu Qin Li Shen Xueqian Wang Minhao Cheng Dacheng Tao 196 4 0 06 Feb 2025
Multi-agent Architecture Search via Agentic Supernet Guibin Zhang Luyang Niu Sihang Li Kaidi Wang Lei Bai Xinyu Wang 232 16 0 06 Feb 2025
Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search Maohao Shen Guangtao Zeng Zhenting Qi Zhang-Wei Hong Zhenfang Chen Wei Lu G. Wornell Subhro Das David D. Cox Chuang Gan LRM LLMAG 573 18 0 04 Feb 2025
Are Language Models Up to Sequential Optimization Problems? From Evaluation to a Hegelian-Inspired Enhancement Soheil Abbasloo LRM 78 0 0 04 Feb 2025
Learning to Generate Unit Tests for Automated Debugging Archiki Prasad Elias Stengel-Eskin Justin Chih-Yao Chen Zaid Khan Joey Tianyi Zhou ELM 197 4 0 03 Feb 2025
Self-Improving Transformers Overcome Easy-to-Hard and Length Generalization Challenges Nayoung Lee Ziyang Cai Avi Schwarzschild Kangwook Lee Dimitris Papailiopoulos ReLM VLM LRM AI4CE 171 7 0 03 Feb 2025
Rethinking Mixture-of-Agents: Is Mixing Different Large Language Models Beneficial? Wenzhe Li Yong Lin Mengzhou Xia Chi Jin MoE 168 4 0 02 Feb 2025
COS(M+O)S: Curiosity and RL-Enhanced MCTS for Exploring Story Space via Language Models Tobias Materzok LRM 172 0 0 28 Jan 2025
Will Systems of LLM Agents Cooperate: An Investigation into a Social Dilemma Richard Willis Yali Du Joel Z Leibo Michael Luck 129 3 0 28 Jan 2025
From Critique to Clarity: A Pathway to Faithful and Personalized Code Explanations with Large Language Models Zexing Xu Zhuang Luo Yichuan Li Kyumin Lee S. Rasoul Etesami 119 1 0 28 Jan 2025
CVOCSemRPL: Class-Variance Optimized Clustering, Semantic Information Injection and Restricted Pseudo Labeling based Improved Semi-Supervised Few-Shot Learning Rhythm Baghel Souvik Maji Pratik Mazumder 141 0 0 24 Jan 2025
Mobile-Agent-E: Self-Evolving Mobile Assistant for Complex Tasks Zhenhailong Wang Haiyang Xu Junyang Wang Xi Zhang Ming Yan Junxuan Zhang Fei Huang Heng Ji 149 29 0 20 Jan 2025
QualityFlow: An Agentic Workflow for Program Synthesis Controlled by LLM Quality Checks Yaojie Hu Qiang Zhou Qihong Chen Xiaopeng Li Linbo Liu Dejiao Zhang Amit Kachroo Talha Oz Omer Tripp 181 7 0 20 Jan 2025