Title
BrowseComp: A Simple Yet Challenging Benchmark for Browsing Agents Jason W. Wei Zhiqing Sun Spencer Papay S. McKinney Jeffrey Han Isa Fulford Hyung Won Chung Alex Tachard Passos W. Fedus Amelia Glaese 61 18 0 16 Apr 2025
An Illusion of Progress? Assessing the Current State of Web Agents Tianci Xue Weijian Qi Tianneng Shi Chan Hee Song Boyu Gou Basel Alomair Huan Sun Yu Su LLMAG ELM Presented at ResearchTrend Connect \| LLMAG on 21 May 2025 234 13 1 02 Apr 2025
Towards Enterprise-Ready Computer Using Generalist Agent Sami Marreed Alon Oved Avi Yaeli Segev Shlomov Ido Levy Aviad Sela Asaf Adi Nir Mashkif LLMAG 96 3 0 24 Feb 2025
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning Zehan Qi Xiao-Chang Liu Iat Long Iong Hanyu Lai Xingwu Sun ... Shuntian Yao Tianjie Zhang Wei Xu J. Tang Yuxiao Dong 169 40 0 28 Jan 2025
WebWalker: Benchmarking LLMs in Web Traversal Jialong Wu Wenbiao Yin Yong Jiang Zhenglin Wang Zekun Xi ... Linhai Zhang Yulan He Deyu Zhou Pengjun Xie Fei Huang 108 14 0 13 Jan 2025
The BrowserGym Ecosystem for Web Agent Research Thibault Le Sellier De Chezelles Maxime Gasse Alexandre Lacoste Alexandre Drouin Massimo Caccia ... Siva Reddy Quentin Cappart Graham Neubig Ruslan Salakhutdinov Nicolas Chapados LLMAG 154 18 0 06 Dec 2024
Beyond Browsing: API-Based Web Agents Yueqi Song Frank F. Xu Shuyan Zhou Graham Neubig 118 22 0 21 Oct 2024
SPA-Bench: A Comprehensive Benchmark for SmartPhone Agent Evaluation Jingxuan Chen Derek Yuen Bin Xie Yue Yang Gongwei Chen ... Liqiang Nie Yasheng Wang Jianye Hao Jun Wang Kun Shao LLMAG 138 14 0 19 Oct 2024
Web Agents with World Models: Learning and Leveraging Environment Dynamics in Web Navigation Hyungjoo Chae Namyoung Kim Kai Tzu-iunn Ong Minju Gwak Gwanwoo Song Jihoon Kim Seon Gyeom Kim Dongha Lee Jinyoung Yeo LLMAG 84 22 0 17 Oct 2024
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents Ke Yang Yao Liu Sapana Chaudhary Rasool Fakoor Pratik Chaudhari George Karypis Huzefa Rangwala LLMAG LM&Ro 168 25 0 17 Oct 2024
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents Xiao-Yang Liu Tianjie Zhang Yu Gu Iat Long Iong Yifan Xu ... Zhengxiao Du Chan Hee Song Yu Su Yuxiao Dong Jie Tang VLM LLMAG 105 37 0 12 Aug 2024
WebCanvas: Benchmarking Web Agents in Online Environments Yichen Pan Dehan Kong Sida Zhou Cheng Cui Yifei Leng ... Hangyu Liu Yanyi Shang Shuyan Zhou Tongshuang Wu Zhengyang Wu 108 43 0 18 Jun 2024
AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents Christopher Rawles Sarah Clinckemaillie Yifan Chang Jonathan Waltz Gabrielle Lau ... Daniel Toyama Robert Berry Divya Tyamagundlu Timothy Lillicrap Oriana Riva LLMAG 124 72 0 23 May 2024
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments Tianbao Xie Danyang Zhang Jixuan Chen Xiaochuan Li Siheng Zhao ... Shuyan Zhou Silvio Savarese Caiming Xiong Victor Zhong Tao Yu 104 173 0 11 Apr 2024