Title
AgentGroupChat-V2: Divide-and-Conquer Is What LLM-Based Multi-Agent System Need Zhouhong Gu Xiaoxuan Zhu Yin Cai Hao Shen Xingzhou Chen ... Hongwei Feng Yanghua Xiao Zheyu Ye Yao Hu Shaosheng Cao LLMAG 17 0 0 18 Jun 2025
DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents Hao Li Xiaogeng Liu Hung-Chun Chiu Dianqi Li Ning Zhang Chaowei Xiao AAML 18 0 0 13 Jun 2025
Invocable APIs derived from NL2SQL datasets for LLM Tool-Calling Evaluation Benjamin Elder Anupama Murthi J. Kang Ankita Rajaram Naik Kiran Kate Kinjal Basu Danish Contractor 13 0 0 12 Jun 2025
SOP-Bench: Complex Industrial SOPs for Evaluating LLM Agents Subhrangshu Nandi Arghya Datta Nikhil Vichare Indranil Bhattacharya Huzefa Raja ... Aaron Chan Man Ho Woo Amar Kandola Brandon Theresa Francesco Carbone LLMAG 18 0 0 09 Jun 2025
MiniCPM4: Ultra-Efficient LLMs on End Devices MiniCPM Team Chaojun Xiao Yuxuan Li Xu Han Yuzhuo Bai ... Zhiyuan Liu Guoyang Zeng Chao Jia Dahai Li Maosong Sun MLLM 29 0 0 09 Jun 2025
Graph-Based Physics-Guided Urban PM2.5 Air Quality Imputation with Constrained Monitoring Data Shangjie Du Hui Wei Dong Yoon Lee Zhizhang Hu Shijia Pan 15 1 0 07 Jun 2025
Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning Zhiyuan Ma Jiayu Liu Xianzhen Luo Zhenya Huang Qingfu Zhu Wanxiang Che LLMAG 146 0 0 05 Jun 2025
Automated Web Application Testing: End-to-End Test Case Generation with Large Language Models and Screen Transition Graphs Nguyen-Khang Le Quan Minh Bui Minh Nguyen Hiep Nguyen Trung Vo Son T. Luu Shoshin Nomura Minh Le Nguyen 51 0 0 03 Jun 2025
AgentCPM-GUI: Building Mobile-Use Agents with Reinforcement Fine-Tuning Zhong Zhang Yaxi Lu Yikun Fu Yupeng Huo Shenzhi Yang ... Chongyi Wang Chi Chen Yuan Yao Zhiyuan Liu Maosong Sun LLMAG ALM 59 0 0 02 Jun 2025
Do not Abstain! Identify and Solve the Uncertainty Jingyu Liu Jingquan Peng xiaopeng Wu Xubin Li T. Ge Bo Zheng Yong Liu 35 0 0 01 Jun 2025
From Objectives to Questions: A Planning-based Framework for Educational Mathematical Question Generation Cheng Cheng Z. Huang Guanhao Zhao Yuxiang Guo Xin Lin J. Wu Xin Li Shijin Wang 42 0 0 01 Jun 2025
Toward a Theory of Agents as Tool-Use Decision-Makers Hongru Wang Cheng Qian Manling Li Jiahao Qiu Boyang Xue Mengdi Wang Heng Ji Kam-Fai Wong 42 0 0 01 Jun 2025
MCP-Zero: Active Tool Discovery for Autonomous LLM Agents Xiang Fei Xiawu Zheng Hao Feng LLMAG 51 0 0 01 Jun 2025
Cross-Task Experiential Learning on LLM-based Multi-Agent Collaboration Yilong Li Chen Qian Yu Xia Ruijie Shi Yufan Dang ... Ye Tian Xuantang Xiong Lei Han Zhiyuan Liu Maosong Sun LLMAG 73 0 0 29 May 2025
OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation Mengkang Hu Yuhang Zhou Wendong Fan Yuzhou Nie Bowei Xia ... Yifeng Wang Qianshuo Ye Bernard Ghanem Ping Luo Guohao Li 132 10 0 29 May 2025
ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions Beong-woo Kwak Minju Kim Dongha Lim Hyungjoo Chae Dongjin Kang Sunghwan Kim Dongil Yang Jinyoung Yeo LLMAG RALM 63 0 0 29 May 2025
Enhancing Tool Learning in Large Language Models with Hierarchical Error Checklists Yue Cui Liuyi Yao Shuchang Tao Weijie Shi Yaliang Li Bolin Ding Xiaofang Zhou 15 0 0 28 May 2025
MIRROR: Multi-agent Intra- and Inter-Reflection for Optimized Reasoning in Tool Learning Zikang Guo Benfeng Xu Xiaorui Wang Zhendong Mao 72 0 0 27 May 2025
ChemHAS: Hierarchical Agent Stacking for Enhancing Chemistry Tools Zhucong Li Bowei Zhang Jin Xiao Zhijian Zhou Fenglei Cao Jiaqing Liang Yuan Qi 35 0 0 27 May 2025
Can Compressed LLMs Truly Act? An Empirical Evaluation of Agentic Capabilities in LLM Compression Peijie Dong Zhenheng Tang Xiang Liu Lujun Li Xiaowen Chu Bo Li 103 0 0 26 May 2025
Retrieval-Augmented Generation for Service Discovery: Chunking Strategies and Benchmarking Robin D. Pesl Jerin G. Mathew Massimo Mecella Marco Aiello 57 1 0 25 May 2025
MASTER: Multi-Agent Security Through Exploration of Roles and Topological Structures -- A Comprehensive Framework Yifan Zhu Chao Zhang Xin Shi Xueqiao Zhang Yi Yang Yawei Luo LLMAG 74 0 0 24 May 2025
LiteCUA: Computer as MCP Server for Computer-Use Agent on AIOS Kai Mei Xi Zhu Hang Gao Shuhang Lin Yongfeng Zhang 205 0 0 24 May 2025
Gaming Tool Preferences in Agentic LLMs Kazem Faghih Wenxiao Wang Yize Cheng Siddhant Bharti Gaurang Sriramanan S. Balasubramanian Parsa Hosseini Soheil Feizi LLMAG KELM 114 0 0 23 May 2025
MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models Xuanqi Gao Siyi Xie Juan Zhai Shqing Ma Chao Shen ELM 115 0 0 22 May 2025
ToolSpectrum : Towards Personalized Tool Utilization for Large Language Models Zihao Cheng Hongru Wang Zeming Liu Yuhang Guo Yuanfang Guo Yunhong Wang Haifeng Wang 98 0 0 19 May 2025
Retrospex: Language Agent Meets Offline Reinforcement Learning Critic Yufei Xiang Yiqun Shen Yeqin Zhang Cam-Tu Nguyen OffRL LLMAG KELM LRM 226 3 0 17 May 2025
TRAIL: Trace Reasoning and Agentic Issue Localization Darshan Deshpande Varun Gangal Hersh Mehta Jitin Krishnan Anand Kannappan Rebecca Qian 124 0 0 13 May 2025
VLM Q-Learning: Aligning Vision-Language Models for Interactive Decision-Making Jake Grigsby Yuke Zhu Michael S Ryoo Juan Carlos Niebles OffRL VLM 90 1 0 06 May 2025
CarbonCall: Sustainability-Aware Function Calling for Large Language Models on Edge Devices Varatheepan Paramanayakam Andreas Karatzas Iraklis Anagnostopoulos Dimitrios Stamoulis 73 1 0 29 Apr 2025
Prompt Injection Attack to Tool Selection in LLM Agents Jiawen Shi Zenghui Yuan Guiyao Tie Pan Zhou Neil Zhenqiang Gong Lichao Sun LLMAG 126 4 0 28 Apr 2025
When2Call: When (not) to Call Tools Hayley Ross Ameya Sunil Mahabaleshwarkar Yoshi Suhara 141 1 0 26 Apr 2025
RAG LLMs are Not Safer: A Safety Analysis of Retrieval-Augmented Generation for Large Language Models Bang An Shiyue Zhang Mark Dredze 153 5 0 25 Apr 2025
A Survey of AI Agent Protocols Yue Yang Huacan Chai Yangqiu Song S. Qi Muning Wen ... Gaowei Chang Wen Liu Ying Wen Yong Yu Weinan Zhang LLMAG 144 11 0 23 Apr 2025
TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials Bofei Zhang Zirui Shang Zhi Gao Wang Zhang Rui Xie Xiaojian Ma Tao Yuan Xinxiao Wu Song-Chun Zhu Qing Li LLMAG 134 3 0 17 Apr 2025
ToolRL: Reward is All Tool Learning Needs Cheng Qian Emre Can Acikgoz Qi He Hongru Wang Xiusi Chen Dilek Hakkani-Tur Gokhan Tur Heng Ji OffRL LRM 139 32 0 16 Apr 2025
Reimagining Urban Science: Scaling Causal Inference with Large Language Models Yutong Xia Ao Qu Yunhan Zheng Yihong Tang Dingyi Zhuang ... Cathy Wu Roger Zimmermann Lijun Sun Roger Zimmermann Jinhua Zhao AI4CE 387 2 0 15 Apr 2025
Teaching Large Language Models to Reason through Learning and Forgetting Tianwei Ni Allen Nie Sapana Chaudhary Yao Liu Huzefa Rangwala Rasool Fakoor ReLM CLL LRM 472 0 0 15 Apr 2025
Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning Can Jin Hongwu Peng Qixin Zhang Yujin Tang Dimitris N. Metaxas Tong Che LLMAG LRM 437 9 0 14 Apr 2025
FamilyTool: A Multi-hop Personalized Tool Use Benchmark Yuxin Wang Yiran Guo Y. Zheng Zhangyue Yin Tian Jin Jie Yang Jiajun Chen Yuan Li Xuanjing Huang Xipeng Qiu 88 0 0 09 Apr 2025
Building LLM Agents by Incorporating Insights from Computer Systems Yapeng Mi Zhi Gao Xiaojian Ma Qing Li LLMAG 127 0 0 06 Apr 2025
Efficient Evaluation of Large Language Models via Collaborative Filtering Xu-Xiang Zhong Chao Yi Han-Jia Ye 115 0 0 05 Apr 2025
Stochastic Optimization with Optimal Importance Sampling Liviu Aolaritei Bart P. G. Van Parys Henry Lam Michael I. Jordan 139 2 0 04 Apr 2025
Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions Peijie Yu Yifan Yang Jiajian Li Zelong Zhang Haorui Wang Xiao Feng Feng Zhang LLMAG 219 2 0 03 Apr 2025
Towards Scientific Intelligence: A Survey of LLM-based Scientific Agents Shuo Ren Pu Jian Zhenjiang Ren Chunlin Leng Can Xie Jiajun Zhang LLMAG AI4CE 155 4 0 31 Mar 2025
Factored Agents: Decoupling In-Context Learning and Memorization for Robust Tool Use Nicholas Roth Christopher Hidey Lucas Spangher William Arnold Chang Ye Nick Masiewicki Jinoo Baek Peter Grabowski Eugene Ie LLMAG 139 0 0 29 Mar 2025
Measuring AI Ability to Complete Long Tasks Thomas Kwa Ben West Joel Becker Amy Deng Katharyn Garcia ... Lucas Jun Koba Sato H. Wijk Daniel M. Ziegler Elizabeth Barnes Lawrence Chan ELM 284 18 0 18 Mar 2025
PLAY2PROMPT: Zero-shot Tool Instruction Optimization for LLM Agents via Tool Play Wei Fang Yang Zhang Kaizhi Qian James R. Glass Yada Zhu LLMAG 93 0 0 18 Mar 2025
Attacking Multimodal OS Agents with Malicious Image Patches Lukas Aichberger Alasdair Paren Y. Gal Philip Torr Adel Bibi AAML 121 5 0 13 Mar 2025
DarkBench: Benchmarking Dark Patterns in Large Language Models Esben Kran Hieu Minh "Jord" Nguyen Akash Kundu Sami Jawhar Jinsuk Park Mateusz Maria Jurewicz 105 3 0 13 Mar 2025