Title
Towards LifeSpan Cognitive Systems Yu Wang Chi Han Tongtong Wu Xiaoxin He Wangchunshu Zhou ... Zexue He Wei Wang Gholamreza Haffari Heng Ji Julian McAuley KELM CLL 480 2 0 20 Sep 2024
NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls Kinjal Basu Ibrahim Abdelaziz Kiran Kate Mayank Agarwal Maxwell Crouse ... Sadhana Kumaravel Saurabh Goyal Xin Wang Luis A. Lastras Pavan Kapanipathi 82 11 0 04 Sep 2024
ToolACE: Winning the Points of LLM Function Calling Weiwen Liu Xiaolin Huang Xingshan Zeng Xinlong Hao Shuai Yu ... Xin Jiang Ruiming Tang Defu Lian Qun Liu Enhong Chen LLMAG 109 48 0 02 Sep 2024
HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model Mengkang Hu Tianxing Chen Qiguang Chen Yao Mu Wenqi Shao Ping Luo LM&Ro LLMAG RALM 82 6 0 18 Aug 2024
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities Jiarui Lu Thomas Holleis Yizhe Zhang Bernhard Aumayer Feng Nan ... Shen Ma Mengyu Li Guoli Yin Zirui Wang Ruoming Pang LLMAG ELM 110 39 0 08 Aug 2024
From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future Haolin Jin Linghan Huang Haipeng Cai Jun Yan Bo Li Huaming Chen 158 37 0 05 Aug 2024
Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval Yanfei Chen Jinsung Yoon Devendra Singh Sachan Qingze Wang Vincent Cohen-Addad M. Bateni Chen-Yu Lee Tomas Pfister 78 8 0 03 Aug 2024
AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation Mengkang Hu Yixiao Wang Can Xu Lingfeng Sun Chensheng Peng T. Hannagan Nicola Poerio Saravan Rajmohan LM&Ro LLMAG 151 22 0 01 Aug 2024
Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models Yingkai Dong Xiangtao Meng Ning Yu Zheng Li Shanqing Guo LLMAG 115 17 0 01 Aug 2024
MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains Guoli Yin Haoping Bai Shuang Ma Feng Nan Yanchao Sun ... Xiaoming Wang Jiulong Shan Meng Cao Ruoming Pang Zirui Wang LLMAG ELM 79 7 0 18 Jul 2024
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models Mengzhao Chen Wenqi Shao Peng Xu Jiahao Wang Peng Gao Kaipeng Zhang Ping Luo MQ 154 35 0 10 Jul 2024
WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment Jiefu Ou Arda Uzunoglu Benjamin Van Durme Daniel Khashabi LM&Ro VGen 88 3 0 10 Jul 2024
ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents Haiyang Shen Yue Li Desong Meng Dongqi Cai Sheng Qi Li Zhang Mengwei Xu Yudong Han LLMAG 147 12 0 28 Jun 2024
Can Tool-augmented Large Language Models be Aware of Incomplete Conditions? Seungbin Yang Yujin Baek Taehee Kim Jaegul Choo 78 2 0 18 Jun 2024
MedCalc-Bench: Evaluating Large Language Models for Medical Calculations Nikhil Khandekar Qiao Jin Guangzhi Xiong Soren Dunn Serina S Applebaum ... Amisha D. Dave Andrew Taylor Aidong Zhang Qingyu Chen Zhiyong Lu LM&MA ELM 118 14 0 17 Jun 2024
Multi-Agent Collaboration via Cross-Team Orchestration Zhuoyun Du Chen Qian Wei Liu Zihao Xie Yifei Wang ... Weize Chen Cheng Yang Ye Tian Xuantang Xiong Lei Han LLMAG 103 21 0 13 Jun 2024
Scaling Large Language Model-based Multi-Agent Collaboration Chen Qian Zihao Xie YiFei Wang Wei Liu Yufan Dang ... Zhuoyun Du Weize Chen Cheng Yang Zhiyuan Liu Maosong Sun AI4CE LLMAG LM&Ro 178 78 0 11 Jun 2024
Advancing Tool-Augmented Large Language Models: Integrating Insights from Errors in Inference Trees Sijia Chen Yibo Wang Yi-Feng Wu Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang Lijun Zhang LLMAG LRM 117 18 0 11 Jun 2024
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models Seungone Kim Juyoung Suk Ji Yong Cho Shayne Longpre Chaeeun Kim ... Sean Welleck Graham Neubig Moontae Lee Kyungjae Lee Minjoon Seo ELM ALM LM&MA 204 44 0 09 Jun 2024
A Survey of Language-Based Communication in Robotics William Hunt Sarvapali D. Ramchurn Mohammad D. Soorati LM&Ro 236 13 0 06 Jun 2024
A Survey of Useful LLM Evaluation Ji-Lun Peng Sijia Cheng Egil Diau Yung-Yu Shih Po-Heng Chen Yen-Ting Lin Yun-Nung Chen LLMAG ELM 82 15 0 03 Jun 2024
Adaptive In-conversation Team Building for Language Model Agents Linxin Song Jiale Liu Jieyu Zhang Shaokun Zhang Ao Luo Shijian Wang Qingyun Wu Chi Wang LLMAG 153 14 0 29 May 2024
Agent Planning with World Knowledge Model Shuofei Qiao Runnan Fang Ningyu Zhang Yuqi Zhu Xiang Chen Shumin Deng Yong Jiang Pengjun Xie Fei Huang Huajun Chen LLMAG LM&Ro 190 24 0 23 May 2024
Smurfs: Multi-Agent System using Context-Efficient DFSDT for Tool Planning Junzhi Chen Juhao Liang Benyou Wang LLMAG 81 4 0 09 May 2024
Preble: Efficient Distributed Prompt Scheduling for LLM Serving Vikranth Srivatsa Zijian He Reyna Abhyankar Dongming Li Yiying Zhang 127 21 0 08 May 2024
GeckOpt: LLM System Efficiency via Intent-Based Tool Selection Michael Fore Simranjit Singh Dimitrios Stamoulis 79 10 0 24 Apr 2024
From Matching to Generation: A Survey on Generative Information Retrieval Xiaoxi Li Jiajie Jin Yujia Zhou Yuyao Zhang Peitian Zhang Yutao Zhu Zhicheng Dou 3DV 195 61 0 23 Apr 2024
Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement Zaid Khan B. Vijaykumar S. Schulter Yun Fu Manmohan Chandraker LRM ReLM 98 8 0 06 Apr 2024
CodeEditorBench: Evaluating Code Editing Capability of Large Language Models Jiawei Guo Ziming Li Xueling Liu Kaijing Ma Tianyu Zheng ... Xingwei Qu Xiang Yue Ge Zhang Wenhu Chen Jie Fu KELM 158 14 0 04 Apr 2024
Advancing LLM Reasoning Generalists with Preference Trees Lifan Yuan Ganqu Cui Hanbin Wang Ning Ding Xingyao Wang ... Zhenghao Liu Bowen Zhou Hao Peng Zhiyuan Liu Maosong Sun LRM 128 123 0 02 Apr 2024
Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning Qinhao Zhou Zihan Zhang Xiang Xiang Ke Wang Yuchuan Wu Yongbin Li LLMAG LRM 83 5 0 29 Mar 2024
AIOS: LLM Agent Operating System Kai Mei Zelong Li Wujiang Xu Wenyue Hua Mingyu Jin Yongfeng Zhang Shuyuan Xu Ruosong Ye Yingqiang Ge Yongfeng Zhang LLMAG 147 25 0 25 Mar 2024
Large Language Models for Blockchain Security: A Systematic Literature Review Zheyuan He Zihao Li Sen Yang Ao Qiao Xiaosong Zhang Xiapu Luo Ting Chen Ting Chen PILM 140 16 0 21 Mar 2024
Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models Zehui Chen Kuikun Liu Qiuchen Wang Wenwei Zhang Jiangning Liu Dahua Lin Kai-xiang Chen Feng Zhao LLMAG ALM AIFin 131 35 0 19 Mar 2024
StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models Zhicheng Guo Sijie Cheng Hao Wang Shihao Liang Yujia Qin Peng Li Zhiyuan Liu Maosong Sun Yang Liu ELM 138 31 0 12 Mar 2024
Exploring the Potential of Large Language Models for Improving Digital Forensic Investigation Efficiency Akila Wickramasekara Frank Breitinger Mark Scanlon 144 10 0 29 Feb 2024
Budget-Constrained Tool Learning with Planning Yuanhang Zheng Peng Li Mingshi Yan Ji Zhang Fei Huang Yang Liu 136 6 0 25 Feb 2024
Soft Self-Consistency Improves Language Model Agents Han Wang Archiki Prasad Elias Stengel-Eskin Mohit Bansal LLMAG 137 11 0 20 Feb 2024
Large Language Model-based Human-Agent Collaboration for Complex Task Solving Xueyang Feng Zhiyuan Chen Yujia Qin Yankai Lin Xu Chen Zhiyuan Liu Ji-Rong Wen LLMAG 103 24 0 20 Feb 2024
SwissNYF: Tool Grounded LLM Agents for Black Box Setting Somnath Sendhil Kumar Dhruv Jain Eshaan Agarwal Raunak Pandey LLMAG 59 0 0 15 Feb 2024
API Pack: A Massive Multi-Programming Language Dataset for API Call Generation Zhen Guo Adriana Meza Soria Wei Sun Songlin Yang Yikang Shen ELM ALM 152 1 0 14 Feb 2024
Towards Urban General Intelligence: A Review and Outlook of Urban Foundation Models Weijiao Zhang Jindong Han Zhao Xu Hang Ni Hao Liu Hui Xiong Hui Xiong AI4CE 246 18 0 30 Jan 2024
MLLM-Tool: A Multimodal Large Language Model For Tool Agent Learning Chenyu Wang Weixin Luo Qianyu Chen Haonan Mai Jindi Guo Sixun Dong Xiaohua Xuan MLLM LLMAG 145 20 0 19 Jan 2024
When Large Language Model Agents Meet 6G Networks: Perception, Grounding, and Alignment Minrui Xu Dusit Niyato Jiawen Kang Zehui Xiong Shiwen Mao Zhu Han Dong In Kim K. B. Letaief LLMAG 103 45 0 15 Jan 2024
InfiAgent-DABench: Evaluating Agents on Data Analysis Tasks Xueyu Hu Ziyu Zhao Shuang Wei Ziwei Chai Qianli Ma ... Jiwei Li Kun Kuang Yang Yang Hongxia Yang Leilei Gan LMTD ELM 90 58 0 10 Jan 2024
Enhancing Open-Domain Task-Solving Capability of LLMs via Autonomous Tool Integration from GitHub Bohan Lyu Xin Cong Heyang Yu Pan Yang Yujia Qin ... Zhong Zhang Yukun Yan Y. Lin Zhiyuan Liu Maosong Sun LLMAG 79 5 0 28 Dec 2023
ComplexityNet: Increasing LLM Inference Efficiency by Learning Task Complexity Henry Bae Aghyad Deeb Alex Fleury Kehang Zhu 38 3 0 12 Dec 2023
Breast Ultrasound Report Generation using LangChain Jaeyoung Huh HyunWook Park Jong Chul Ye 31 6 0 05 Dec 2023
Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents Zhuosheng Zhang Yao Yao Aston Zhang Xiangru Tang Xinbei Ma ... Yiming Wang Mark B. Gerstein Rui Wang Gongshen Liu Hai Zhao LLMAG LM&Ro LRM 149 61 0 20 Nov 2023
ADaPT: As-Needed Decomposition and Planning with Language Models Archiki Prasad Alexander Koller Mareike Hartmann Peter Clark Ashish Sabharwal Mohit Bansal Tushar Khot LM&Ro 76 93 0 08 Nov 2023