ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions

29 May 2025

Papers citing "ToolHaystack: Stress-Testing Tool-Augmented Language Models in Realistic Long-Term Interactions"

4 / 4 papers shown

Title
Multi-Mission Tool Bench: Assessing the Robustness of LLM based Agents through Related and Dynamic Missions Peijie Yu Yifan Yang Jiajian Li Zelong Zhang Haorui Wang Xiao Feng Feng Zhang LLMAG 219 2 0 03 Apr 2025
ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario Lucen Zhong Zhengxiao Du Xiaohan Zhang Haiyi Hu J. Tang LLMAG 100 10 0 20 Jan 2025
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation Hyungjoo Chae Namyoung Kim Kai Tzu-iunn Ong Minju Gwak Gwanwoo Song Jihoon Kim Seon Gyeom Kim Dongha Lee Jinyoung Yeo LLMAG 105 23 0 17 Oct 2024
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer Haotian Tang Yecheng Wu Shang Yang Enze Xie Junsong Chen Junyu Chen Zhuoyang Zhang Han Cai Yaojie Lu Song Han 222 48 0 14 Oct 2024