Visual Test-time Scaling for GUI Agent Grounding

v1v2 (latest)

Visual Test-time Scaling for GUI Agent Grounding

1 May 2025

Lajanugen Logeswaran

ArXiv (abs)PDF HTML

Papers citing "Visual Test-time Scaling for GUI Agent Grounding"

5 / 5 papers shown

Title
Vision-Language Model for Object Detection and Segmentation: A Review and Evaluation Yongchao Feng Yajie Liu Shuai Yang Wenrui Cai Jing Zhang ... Jiahui Lv Ziqiang Liu Tengyuan Shi Qingjie Liu Yansen Wang MLLM VLM 134 2 0 13 Apr 2025
ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use Kaixin Li Ziyang Meng Hongzhan Lin Ziyang Luo Yuchen Tian Jing Ma Zhiyong Huang Tat-Seng Chua 120 22 0 04 Apr 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 471 706 0 20 Feb 2025
UI-TARS: Pioneering Automated GUI Interaction with Native Agents Yujia Qin Yining Ye Junjie Fang Han Wang Shihao Liang ... Haifeng Liu F. Lin Tao Peng Xin Liu Guang Shi LLMAG LM&Ro 124 69 0 21 Jan 2025
AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents Ke Yang Yao Liu Sapana Chaudhary Rasool Fakoor Pratik Chaudhari George Karypis Huzefa Rangwala LLMAG LM&Ro 201 27 0 17 Oct 2024