Title
A Survey of Large Language Model Empowered Agents for Recommendation and Search: Towards Next-Generation Information Retrieval Yu Zhang Shutong Qiao Jiaqi Zhang Tzu-Heng Lin Chen Gao Yongqian Li LM&Ro LM&MA 254 3 0 07 Mar 2025
ATLaS: Agent Tuning via Learning Critical Steps Zhixun Chen Ming Li Yuanmin Huang Yali Du Meng Fang Dinesh Manocha 191 5 0 04 Mar 2025
PersonaX: A Recommendation Agent Oriented User Modeling Framework for Long Behavior Sequence Yunxiao Shi Wujiang Xu Zeqi Zhang Xing Zi Qiang Wu Min Xu 138 1 0 04 Mar 2025
MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents Kunlun Zhu Hongyi Du Zhaochen Hong Xiaocheng Yang Shuyi Guo ... Zhenhailong Wang Cheng Qian Xiangru Tang Heng Ji Jiaxuan You LLMAG 126 13 0 03 Mar 2025
AskToAct: Enhancing LLMs Tool Use via Self-Correcting Clarification Xuan Zhang Yongliang Shen Zhe Zheng Linjuan Wu Wenqi Zhang Yuchen Yan Qiuying Peng Jun Wang Weiming Lu KELM 172 2 0 03 Mar 2025
Evaluating Personalized Tool-Augmented LLMs from the Perspectives of Personalization and Proactivity Yupu Hao Pengfei Cao Zhuoran Jin Huanxuan Liao Yubo Chen Kang Liu Jun Zhao LLMAG 407 1 0 02 Mar 2025
Instructor-Worker Large Language Model System for Policy Recommendation: a Case Study on Air Quality Analysis of the January 2025 Los Angeles Wildfires K. Gao Dening Lu Liangzhi Li Nan Chen Hongjie He Linlin Xu Jonathan Li 91 1 0 01 Mar 2025
Kanana: Compute-efficient Bilingual Language Models Kanana LLM Team Yunju Bak Hojin Lee Minho Ryu Jiyeon Ham ... Daniel Lee Minchul Lee MinHyung Lee Shinbok Lee Gaeun Seo 175 1 0 26 Feb 2025
Multi-Agent Security Tax: Trading Off Security and Collaboration Capabilities in Multi-Agent Systems Pierre Peigne-Lefebvre Mikolaj Kniejski Filip Sondej Matthieu David J. Hoelscher-Obermaier Christian Schroeder de Witt Esben Kran 120 7 0 26 Feb 2025
PEToolLLM: Towards Personalized Tool Learning in Large Language Models Qiancheng Xu Yunshui Li Heming Xia Fan Liu Min Yang Wenjie Li 152 0 0 26 Feb 2025
GenTool: Enhancing Tool Generalization in Language Models through Zero-to-One and Weak-to-Strong Simulation Jie He Jennifer Neville Mengting Wan Longqi Yang Hui Liu Xiaofeng Xu Xia Song Jeff Z. Pan Pei Zhou LLMAG SyDa 89 0 0 26 Feb 2025
Textual-to-Visual Iterative Self-Verification for Slide Generation Yunqing Xu Xinbei Ma Jiyang Qiu Hai Zhao 115 0 0 24 Feb 2025
MLGym: A New Framework and Benchmark for Advancing AI Research Agents Deepak Nathani Lovish Madaan Nicholas Roberts Nikolay Bashlykov Ajay Menon ... Tatiana Shavrina Jakob Foerster Yoram Bachrach William Yang Wang Roberta Raileanu LLMAG 151 16 0 21 Feb 2025
HARBOR: Exploring Persona Dynamics in Multi-Agent Competition Kenan Jiang Li Xiong Fei Liu 110 1 0 17 Feb 2025
SMART: Self-Aware Agent for Tool Overuse Mitigation Cheng Qian Emre Can Acikgoz H. Wang Xiusi Chen Avirup Sil Dilek Hakkani-Tur Gokhan Tur Heng Ji LLMAG KELM LRM 170 10 0 17 Feb 2025
Mimicking the Familiar: Dynamic Command Generation for Information Theft Attacks in LLM Tool-Learning System Ziyou Jiang Mingyang Li Guowei Yang Junjie Wang Yuekai Huang Zhiyuan Chang Qing Wang AAML 76 1 0 17 Feb 2025
AgentStudio: A Toolkit for Building General Virtual Agents Longtao Zheng Zhiyuan Huang Zhenghai Xue Xinrun Wang Bo An Shuicheng Yan 224 20 0 17 Feb 2025
Divergent Thoughts toward One Goal: LLM-based Multi-Agent Collaboration System for Electronic Design Automation Haoyuan Wu Haisheng Zheng Zhuolun He Bei Yu 104 1 0 15 Feb 2025
Self-Training Large Language Models for Tool-Use Without Demonstrations Ne Luo Aryo Pradipta Gema Xuanli He Emile van Krieken Pietro Lesci Pasquale Minervini LLMAG 156 2 0 09 Feb 2025
SyntheT2C: Generating Synthetic Data for Fine-Tuning Large Language Models on the Text2Cypher Task Ziije Zhong Linqing Zhong Zhaoze Sun Qingyun Jin Zengchang Qin Xiaofan Zhang 115 11 0 28 Jan 2025
Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning Yanfang Zhang Yiliu Sun Yibing Zhan Dapeng Tao Dacheng Tao Chen Gong LRM AI4CE LLMAG 165 2 0 28 Jan 2025
Generative AI for Cel-Animation: A Survey Yunlong Tang Junjia Guo Pinxin Liu Zhiyuan Wang Hang Hua ... Jing Bi Mingqian Feng Xuzhao Li Zeliang Zhang Chenliang Xu VGen 158 7 0 08 Jan 2025
NesTools: A Dataset for Evaluating Nested Tool Learning Abilities of Large Language Models Han Han Tong Zhu Xiang Zhang Mengsong Wu Hao Xiong Wenliang Chen 45 0 0 08 Jan 2025
ToolHop: A Query-Driven Benchmark for Evaluating Large Language Models in Multi-Hop Tool Use Junjie Ye Zhengyin Du Xuesong Yao Weijian Lin Yufei Xu ... Siyu Yuan Tao Gui Qi Zhang Xuanjing Huang Jiecao Chen 138 0 0 05 Jan 2025
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web Hiroki Furuta Yutaka Matsuo Aleksandra Faust Izzeddin Gur CLL 205 16 0 03 Jan 2025
From Generalist to Specialist: A Survey of Large Language Models for Chemistry Yang Han Ziping Wan Lu Chen Kai Yu Xin Chen LM&MA 95 3 0 31 Dec 2024
MapEval: A Map-Based Evaluation of Geo-Spatial Reasoning in Foundation Models Mahir Labib Dihan Md Tanvir Hassan Md Tanvir Parvez Md Hasebul Hasan Md Almash Alam Muhammad Aamir Cheema Mohammed Eunus Ali Md. Rizwan Parvez ELM LRM 120 3 0 31 Dec 2024
Thinking Before Running! Efficient Code Generation with Thorough Exploration and Optimal Refinement Xiaoqing Zhang Yuhan Liu Flood Sung Xiuying Chen Shuo Shang Rui Yan 90 1 0 30 Dec 2024
MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification Saptarshi Sengupta Kristal Curtis Akshay Mallipeddi Abhinav Mathur Joseph Ross Liang Gou Liang Gou LLMAG SyDa 214 2 0 28 Nov 2024
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games Davide Paglieri Bartłomiej Cupiał Samuel Coward Ulyana Piterbarg Maciej Wolczyk ... Lerrel Pinto Rob Fergus Jakob Foerster Jack Parker-Holder Tim Rocktaschel LLMAG LRM 210 22 0 20 Nov 2024
Foundations and Recent Trends in Multimodal Mobile Agents: A Survey Biao Wu Yanda Li Meng Fang Zirui Song Zhiwei Zhang LM&Ro LLMAG OffRL AI4TS 72 7 0 04 Nov 2024
CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments Kung-Hsiang Huang Akshara Prabhakar Sidharth Dhawan Yixin Mao Huan Wang Silvio Savarese Caiming Xiong Philippe Laban Chien-Sheng Wu 124 14 0 04 Nov 2024
DynaSaur: Large Language Agents Beyond Predefined Actions Dang Nguyen Viet Dac Lai Seunghyun Yoon Ryan Rossi Handong Zhao ... Nedim Lipka Yu Wang Trung H. Bui Franck Dernoncourt Dinesh Manocha LM&Ro ELM LLMAG 117 7 0 04 Nov 2024
Adapting While Learning: Grounding LLMs for Scientific Problems with Intelligent Tool Usage Adaptation Bohan Lyu Yadi Cao Duncan Watson-Parris Leon Bergen Taylor Berg-Kirkpatrick Rose Yu 129 5 0 01 Nov 2024
AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? Han Bao Yue Huang Yanbo Wang Jiayi Ye Xiangqi Wang Preslav Nakov Mohamed Elhoseiny Wei Wei Mohamed Elhoseiny Xiangliang Zhang 109 11 0 28 Oct 2024
Improving Model Factuality with Fine-grained Critique-based Evaluator Yiqing Xie Wenxuan Zhou Pradyot Prakash Di Jin Yuning Mao ... Sinong Wang Han Fang Carolyn Rose Daniel Fried Hejia Zhang HILM 165 8 0 24 Oct 2024
Beyond Browsing: API-Based Web Agents Yueqi Song Frank F. Xu Shuyan Zhou Graham Neubig 152 23 0 21 Oct 2024
MeNTi: Bridging Medical Calculator and LLM Agent with Nested Tool Calling Yakun Zhu Shaohang Wei Xu Wang Kui Xue Xiaofan Zhang Shanghang Zhang 137 2 0 17 Oct 2024
Facilitating Multi-turn Function Calling for LLMs via Compositional Instruction Tuning Mingyang Chen Haoze Sun Tianpeng Li Fan Yang Hao Liang Keer Lu Tengjiao Wang Wentao Zhang Guosheng Dong Weipeng Chen LRM 121 6 0 16 Oct 2024
Agent Skill Acquisition for Large Language Models via CycleQD So Kuroki Taishi Nakamura Takuya Akiba Yujin Tang MoMe 145 2 0 16 Oct 2024
Planning Anything with Rigor: General-Purpose Zero-Shot Planning with LLM-based Formalized Programming Yilun Hao Yang Zhang Chuchu Fan LLMAG 133 17 0 15 Oct 2024
Balancing Continuous Pre-Training and Instruction Fine-Tuning: Optimizing Instruction-Following in LLMs Ishan Jindal Chandana Badrinath Pranjal Bharti Lakkidi Vinay Sachin Dev Sharma CLL ALM 85 1 0 14 Oct 2024
Agentic Information Retrieval Weinan Zhang Junwei Liao Ning Li Kounianhua Du Jianghao Lin AIFin 109 7 0 13 Oct 2024
DAWN: Designing Distributed Agents in a Worldwide Network Zahra Aminiranjbar Jianan Tang Qiudan Wang Shubha Pant Mahesh Viswanathan AI4CE LLMAG 83 2 0 11 Oct 2024
From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions Changle Qu Sunhao Dai Xiaochi Wei Hengyi Cai Shuaiqiang Wang Dawei Yin Jun Xu Ji-Rong Wen 152 13 0 10 Oct 2024
Learning Evolving Tools for Large Language Models Guoxin Chen Zhong Zhang Xin Cong Fangda Guo Yesai Wu Yankai Lin Wenzheng Feng Yasheng Wang KELM 129 2 0 09 Oct 2024
Steering Large Language Models between Code Execution and Textual Reasoning Yongchao Chen Harsh Jhamtani Srinagesh Sharma Chuchu Fan Chi Wang LLMAG LRM 154 9 0 04 Oct 2024
ToolGen: Unified Tool Retrieval and Calling via Generation Renxi Wang Xudong Han Lei Ji Shu Wang Timothy Baldwin Haonan Li LLMAG 157 9 0 04 Oct 2024
Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents H. Zhang Jingyuan Huang Kai Mei Yifei Yao Zhenting Wang Chenlu Zhan Hongwei Wang Yongfeng Zhang AAML LLMAG ELM 191 40 0 03 Oct 2024
Agent-Oriented Planning in Multi-Agent Systems Ao Li Yuexiang Xie Songze Li Fugee Tsung Bolin Ding Yaliang Li AIFin 405 10 0 03 Oct 2024