A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis

24 July 2023

Hiroki Furuta

Papers citing "A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis"

50 / 160 papers shown

Title
Can Global XAI Methods Reveal Injected Bias in LLMs? SHAP vs Rule Extraction vs RuleSHAP Francesco Sovrano 5 0 0 16 May 2025
Agent-as-a-Service based on Agent Network Yuhan Zhu Haojie Liu Jian Wang Bing Li Zikang Yin Yefei Liao 24 0 0 13 May 2025
AgentXploit: End-to-End Redteaming of Black-Box AI Agents Zhun Wang Vincent Siu Zhe Ye Tianneng Shi Yuzhou Nie Xuandong Zhao Chenguang Wang Wenbo Guo Dawn Song LLMAG AAML 36 0 0 09 May 2025
Benchmarking Vision, Language, & Action Models in Procedurally Generated, Open Ended Action Environments Pranav Guruprasad Yangyue Wang Sudipta Chowdhury Harshvardhan Sikka LM&Ro VLM 140 0 0 08 May 2025
Towards Efficient Online Tuning of VLM Agents via Counterfactual Soft Reinforcement Learning Lang Feng Weihao Tan Zhiyi Lyu Longtao Zheng Haiyang Xu M. Yan Fei Huang Bo An 26 0 0 01 May 2025
Prompt Injection Attack to Tool Selection in LLM Agents Jiawen Shi Zenghui Yuan Guiyao Tie Pan Zhou Neil Zhenqiang Gong Lichao Sun LLMAG 51 0 0 28 Apr 2025
Evolution of AI in Education: Agentic Workflows Firuz Kamalov David Santandreu Calonge Linda Smail Dilshod Azizov Dimple R. Thadani Theresa Kwong Amara Atif 43 1 0 25 Apr 2025
TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials Bofei Zhang Zirui Shang Zhi Gao Wang Zhang Rui Xie Xiaojian Ma Tao Yuan Xinxiao Wu Song-Chun Zhu Qing Li LLMAG 35 1 0 17 Apr 2025
Are AI agents the new machine translation frontier? Challenges and opportunities of single- and multi-agent systems for multilingual digital communication Vicent Briva-Iglesias LLMAG 34 0 0 17 Apr 2025
UI-E2I-Synth: Advancing GUI Grounding with Large-Scale Instruction Synthesis Xinyi Liu Xiaoyi Zhang Ziyun Zhang Yan Lu 39 0 0 15 Apr 2025
Breaking the Data Barrier -- Building GUI Agents Through Task Generalization Junlei Zhang Zichen Ding Chang Ma Zijie Chen Qiushi Sun Zhenzhong Lan Junxian He 124 0 0 14 Apr 2025
RealWebAssist: A Benchmark for Long-Horizon Web Assistance with Real-World Users Suyu Ye Haojun Shi Darren Shih Hyokun Yun Tanya Roosta Tianmin Shu 24 0 0 14 Apr 2025
AgentRewardBench: Evaluating Automatic Evaluations of Web Agent Trajectories Xing Han Lù Amirhossein Kazemnejad Nicholas Meade Arkil Patel Dongchan Shin Alejandra Zambrano Karolina Stañczak Peter Shaw Christopher Pal Siva Reddy LLMAG 40 1 0 11 Apr 2025
Frontier AI's Impact on the Cybersecurity Landscape Wenbo Guo Yujin Potter Tianneng Shi Zhun Wang Andy Zhang Dawn Song 52 1 0 07 Apr 2025
On the Robustness of GUI Grounding Models Against Image Attacks Haoren Zhao Tianyi Chen Zhen Wang AAML 36 0 0 07 Apr 2025
ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use Kaixin Li Ziyang Meng Hongzhan Lin Ziyang Luo Yuchen Tian Jing Ma Zhiyong Huang Tat-Seng Chua 40 7 0 04 Apr 2025
An Illusion of Progress? Assessing the Current State of Web Agents Tianci Xue Weijian Qi Tianneng Shi Chan Hee Song Boyu Gou D. Song Huan Sun Yu Su LLMAG ELM 94 4 1 02 Apr 2025
A Survey of WebAgents: Towards Next-Generation AI Agents for Web Automation with Large Foundation Models Liangbo Ning Ziran Liang Zhuohang Jiang Haohao Qu Yujuan Ding ... Xiao Wei Shanru Lin Hui Liu Philip S. Yu Qing Li LLMAG LM&Ro 91 6 0 30 Mar 2025
LLM Agents That Act Like Us: Accurate Human Behavior Simulation with Real-World Data Yuxuan Lu Jing Huang Yan Han Bennet Bei Yaochen Xie Dakuo Wang Jessie Wang Qi He 79 1 0 26 Mar 2025
AgentRxiv: Towards Collaborative Autonomous Research Samuel Schmidgall Michael Moor 61 3 0 23 Mar 2025
GUI-Xplore: Empowering Generalizable GUI Agents with One Exploration Yuchen Sun Shanhui Zhao Tao Yu Hao Wen Samith Va Mengwei Xu Yuanchun Li Chongyang Zhang LLMAG 62 0 0 22 Mar 2025
SWEET-RL: Training Multi-Turn LLM Agents on Collaborative Reasoning Tasks Yifei Zhou Song Jiang Yuandong Tian Jason Weston Sergey Levine Sainbayar Sukhbaatar Xian Li LLMAG LRM 54 2 0 19 Mar 2025
Automating the loop in traffic incident management on highway Matteo Cercola Nicola Gatti Pedro Huertas Leyva Benedetto Carambia Simone Formentin 50 0 0 15 Mar 2025
Plan-and-Act: Improving Planning of Agents for Long-Horizon Tasks Lutfi Eren Erdogan Nicholas Lee Sehoon Kim Suhong Moon Hiroki Furuta Gopala Anumanchipalli K. K. Amir Gholami LLMAG LM&Ro AIFin 76 2 0 12 Mar 2025
CombatVLA: An Efficient Vision-Language-Action Model for Combat Tasks in 3D Action Role-Playing Games Peng Chen Pi Bu Yingyao Wang Xinyi Wang Ziming Wang ... Qi Zhu Jun Song Siran Yang Jiamang Wang Bo Zheng 73 2 0 12 Mar 2025
Learning to Contextualize Web Pages for Enhanced Decision Making by LLM Agents Dongjun Lee Juyong Lee Kyuyoung Kim Jihoon Tack Jinwoo Shin Yee Whye Teh Kimin Lee LLMAG 60 2 0 12 Mar 2025
A Survey of Large Language Model Empowered Agents for Recommendation and Search: Towards Next-Generation Information Retrieval Yu Zhang Shutong Qiao Jiaqi Zhang Tzu-Heng Lin Chen Gao Y. Li LM&Ro LM&MA 87 1 0 07 Mar 2025
SpiritSight Agent: Advanced GUI Agent with One Look Zhiyuan Huang Ziming Cheng Junting Pan Zhaohui Hou Mingjie Zhan LLMAG 101 2 0 05 Mar 2025
MPO: Boosting LLM Agents with Meta Plan Optimization Weimin Xiong Yifan Song Qingxiu Dong Bingchan Zhao Feifan Song Xun Wang Sujian Li LLMAG 81 0 0 04 Mar 2025
Towards Sustainable Web Agents: A Plea for Transparency and Dedicated Metrics for Energy Consumption L. Krupp Daniel Geißler P. Lukowicz Jakob Karolus LLMAG 71 0 0 25 Feb 2025
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents Vardaan Pahuja Yadong Lu Corby Rosset Boyu Gou Arindam Mitra Spencer Whitehead Yu Su Ahmed Awadallah LLMAG LM&Ro Presented at ResearchTrend Connect \| LLMAG on 14 Mar 2025 149 3 1 20 Feb 2025
AgentStudio: A Toolkit for Building General Virtual Agents Longtao Zheng Zhiyuan Huang Zhenghai Xue Xinrun Wang Bo An Shuicheng Yan 80 14 0 17 Feb 2025
Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks Ang Li Yin Zhou Vethavikashini Chithrra Raghuram Tom Goldstein Micah Goldblum AAML 76 7 0 12 Feb 2025
The AI Agent Index Stephen Casper Luke Bailey Rosco Hunter Carson Ezell Emma Cabalé ... Phillip J. K. Christoffersen A. Pinar Ozisik Rakshit Trivedi Dylan Hadfield-Menell Noam Kolt 72 5 0 03 Feb 2025
WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning Zehan Qi Xiao-Chang Liu Iat Long Iong Hanyu Lai X. Sun ... Shuntian Yao Tianjie Zhang Wei Xu J. Tang Yuxiao Dong 103 14 0 28 Jan 2025
Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots H. Zhang Xiaoman Pan Hongwei Wang Kaixin Ma W. Yu Dong Yu LLMAG 61 3 0 03 Jan 2025
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web Hiroki Furuta Yutaka Matsuo Aleksandra Faust Izzeddin Gur CLL 87 13 0 03 Jan 2025
PC Agent: While You Sleep, AI Works -- A Cognitive Journey into Digital World Yanheng He Jiahe Jin Shijie Xia Jiadi Su Runze Fan Haoyang Zou Xiangkun Hu Pengfei Liu LLMAG 41 2 0 23 Dec 2024
Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces Jihan Yang Shusheng Yang Anjali W. Gupta Rilyn Han Li Fei-Fei Saining Xie LRM 119 50 0 18 Dec 2024
EscapeBench: Pushing Language Models to Think Outside the Box Cheng Qian Peixuan Han Qinyu Luo Bingxiang He X. Chen ... Jiarui Yao Xiaocheng Yang Denghui Zhang Yunzhu Li Heng Ji LLMAG LRM 82 3 0 18 Dec 2024
The BrowserGym Ecosystem for Web Agent Research Thibault Le Sellier De Chezelles Maxime Gasse Alexandre Lacoste Alexandre Drouin Massimo Caccia ... Siva Reddy Quentin Cappart Graham Neubig Ruslan Salakhutdinov Nicolas Chapados LLMAG 101 9 0 06 Dec 2024
ShowUI: One Vision-Language-Action Model for GUI Visual Agent Kevin Qinghong Lin Linjie Li Difei Gao Z. Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang Mike Zheng Shou LLMAG 72 13 0 26 Nov 2024
Foundations and Recent Trends in Multimodal Mobile Agents: A Survey Biao Wu Yanda Li Meng Fang Zirui Song Zhiwei Zhang Yunchao Wei L. Chen LM&Ro LLMAG OffRL AI4TS 39 4 0 04 Nov 2024
AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents Yifan Xu Xiao Liu X. Sun Siyi Cheng Hao Yu Hanyu Lai Shudan Zhang Dan Zhang Jie Tang Yuxiao Dong LLMAG 44 7 0 31 Oct 2024
Explainable Behavior Cloning: Teaching Large Language Model Agents through Learning by Demonstration Yanchu Guan Dong Wang Y. Wang Haiqing Wang Renen Sun Chenyi Zhuang Jinjie Gu Zhixuan Chu LM&Ro LLMAG 33 0 0 30 Oct 2024
Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines Zhixin Zhang Yiyuan Zhang Xiaohan Ding Xiangyu Yue 24 3 0 28 Oct 2024
OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization Hongliang He Wenlin Yao Kaixin Ma W. Yu H. Zhang Tianqing Fang Zhenzhong Lan Dong Yu LM&Ro LLMAG 43 9 0 25 Oct 2024
OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning Xiaoqiang Wang Bang Liu LLMAG LM&Ro LRM 31 6 0 24 Oct 2024
Ferret-UI 2: Mastering Universal User Interface Understanding Across Platforms Zhangheng Li Keen You H. Zhang Di Feng Harsh Agrawal Xiujun Li Mohana Prasad Sathya Moorthy Jeff Nichols Y. Yang Zhe Gan MLLM 57 18 0 24 Oct 2024
Lightweight Neural App Control Filippos Christianos Georgios Papoudakis Thomas Coste Jianye Hao Jun Wang Kun Shao LM&Ro 52 4 0 23 Oct 2024