ToolTalk: Evaluating Tool-Usage in a Conversational Setting

ToolTalk: Evaluating Tool-Usage in a Conversational Setting

15 November 2023

Papers citing "ToolTalk: Evaluating Tool-Usage in a Conversational Setting"

16 / 16 papers shown

Title
FamilyTool: A Multi-hop Personalized Tool Use Benchmark Yuxin Wang Yiran Guo Y. Zheng Zhangyue Yin Tian Jin Jie Yang Jiajun Chen Xuanjing Huang Xipeng Qiu 24 0 0 09 Apr 2025
Chain-of-Tools: Utilizing Massive Unseen Tools in the CoT Reasoning of Frozen Language Models Mengsong Wu Tong Zhu Han Han Xiang Zhang Wenbiao Shao Wenliang Chen LRM 48 1 0 21 Mar 2025
ToolDial: Multi-turn Dialogue Generation Method for Tool-Augmented Language Models Jeonghoon Shim Gyuhyeon Seo Cheongsu Lim Yohan Jo 49 4 0 01 Mar 2025
From Individual to Society: A Survey on Social Simulation Driven by Large Language Model-based Agents Xinyi Mou Xuanwen Ding Qi He Liang Wang Jingcong Liang ... Lin Sun Jiayu Lin Jie Zhou Xuanjing Huang Zhongyu Wei LLMAG LM&Ro AI4CE 86 13 0 04 Dec 2024
MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models Pei Wang Yanan Wu Zekun Wang Jiaheng Liu Xiaoshuai Song ... Ge Zhang Hangyu Guo Zhaoxiang Zhang Wenbo Su Bo Zheng ELM 44 2 0 15 Oct 2024
Sparse Rewards Can Self-Train Dialogue Agents B. Lattimer Varun Gangal Ryan McDonald Yi Yang LLMAG 34 2 0 06 Sep 2024
Tool Learning with Large Language Models: A Survey Changle Qu Sunhao Dai Xiaochi Wei Hengyi Cai Shuaiqiang Wang Dawei Yin Jun Xu Jirong Wen LLMAG 34 80 0 28 May 2024
AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents Christopher Rawles Sarah Clinckemaillie Yifan Chang Jonathan Waltz Gabrielle Lau ... Daniel Toyama Robert Berry Divya Tyamagundlu Timothy Lillicrap Oriana Riva LLMAG 69 44 0 23 May 2024
CACTUS: Chemistry Agent Connecting Tool-Usage to Science Andrew D. McNaughton Gautham Ramalaxmi Agustin Kruel C. Knutson R. Varikoti Neeraj Kumar 55 7 0 02 May 2024
From Persona to Personalization: A Survey on Role-Playing Language Agents Jiangjie Chen Xintao Wang Rui Xu Siyu Yuan Yikai Zhang ... Caiyu Hu Siye Wu Scott Ren Ziquan Fu Yanghua Xiao 62 77 0 28 Apr 2024
Frontier AI Ethics: Anticipating and Evaluating the Societal Impacts of Generative Agents Seth Lazar SILM 37 1 0 10 Apr 2024
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs Kinjal Basu Ibrahim Abdelaziz Subhajit Chaudhury Soham Dan M. Crouse Asim Munawar Sadhana Kumaravel Vinod Muthusamy Pavan Kapanipathi Luis Lastras 55 15 0 23 Feb 2024
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 267 2,494 0 06 Oct 2022
Retrieving and Reading: A Comprehensive Survey on Open-domain Question Answering Fengbin Zhu Wenqiang Lei Chao Wang Jianming Zheng Soujanya Poria Tat-Seng Chua RALM 213 252 0 04 Jan 2021
STAR: A Schema-Guided Dialog Dataset for Transfer Learning Johannes E. M. Mosig Shikib Mehri Thomas Kober 89 42 0 22 Oct 2020
MLQA: Evaluating Cross-lingual Extractive Question Answering Patrick Lewis Barlas Oğuz Ruty Rinott Sebastian Riedel Holger Schwenk ELM 246 492 0 16 Oct 2019