v1v2v3 (latest)

VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms

18 March 2025

Papers citing "VisEscape: A Benchmark for Evaluating Exploration-driven Decision-making in Virtual Escape Rooms"

47 / 47 papers shown

Title
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness Jaehyun Jeon Janghan Yoon Minsoo Kim Sumin Shim Yejin Choi Hanbin Kim Youngjae Yu AAML 131 0 0 08 May 2025
EscapeCraft: A 3D Room Escape Environment for Benchmarking Complex Multimodal Reasoning Ability Zehua Wang Yurui Dong Ziyue Wang Minyuan Ruan Zhili Cheng Chong Chen Ziwei Sun Yang Liu LRM 136 1 0 13 Mar 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 380 1,970 0 22 Jan 2025
Lifelong Learning of Large Language Model based Agents: A Roadmap Junhao Zheng Chengming Shi Xidi Cai Qiuke Li Duzhen Zhang Cuiping Li Dong Yu Qianli Ma CLL KELM LLMAG LM&Ro AI4CE 95 12 0 13 Jan 2025
Exposing Limitations of Language Model Agents in Sequential-Task Compositions on the Web Hiroki Furuta Yutaka Matsuo Aleksandra Faust Izzeddin Gur CLL 154 16 0 03 Jan 2025
EscapeBench: Towards Advancing Creative Intelligence of Language Model Agents Cheng Qian Peixuan Han Qinyu Luo Bingxiang He Xiusi Chen ... Jiarui Yao Xiaocheng Yang Denghui Zhang Yunzhu Li Heng Ji LLMAG LRM 140 0 0 18 Dec 2024
Enhancing Advanced Visual Reasoning Ability of Large Language Models Zhiyuan Li Dongnan Liu Chaoyi Zhang Heng Wang Tengfei Xue Weidong Cai VLM LRM 105 10 0 21 Sep 2024
NaviQAte: Functionality-Guided Web Application Navigation M. Shahbandeh Parsa Alian Noor Nashid Ali Mesbah 48 3 0 16 Sep 2024
LLaVA-OneVision: Easy Visual Task Transfer Bo Li Yuanhan Zhang Dong Guo Renrui Zhang Feng Li Hao Zhang Kaichen Zhang Yanwei Li Ziwei Liu Chunyuan Li MLLM SyDa VLM 117 860 0 06 Aug 2024
ReALFRED: An Embodied Instruction Following Benchmark in Photo-Realistic Environments Taewoong Kim Cheolhong Min Byeonghwi Kim Jinyeon Kim Wonje Jeung Jonghyun Choi LM&Ro 98 5 0 26 Jul 2024
Symbolic Learning Enables Self-Evolving Agents Wangchunshu Zhou Yixin Ou Shengwei Ding Long Li Jialong Wu ... Shuai Wang Xiaohua Xu Xin Xu Huajun Chen Yuchen Eleanor Jiang AI4CE LM&Ro LLMAG 90 36 0 26 Jun 2024
Benchmarking Multi-Image Understanding in Vision and Language Models: Perception, Knowledge, Reasoning, and Multi-Hop Reasoning Bingchen Zhao Yongshuo Zong Letian Zhang Timothy Hospedales VLM 86 19 0 18 Jun 2024
VillagerAgent: A Graph-Based Multi-Agent Framework for Coordinating Complex Task Dependencies in Minecraft Yubo Dong Xukun Zhu Zhengzhe Pan Linchao Zhu Yi Yang 75 17 0 09 Jun 2024
Socratic Planner: Self-QA-Based Zero-Shot Planning for Embodied Instruction Following Suyeon Shin Sujin Jeon Junghyun Kim Gi-Cheon Kang Byoung-Tak Zhang LLMAG 60 0 0 21 Apr 2024
VisualWebBench: How Far Have Multimodal LLMs Evolved in Web Page Understanding and Grounding? Junpeng Liu Yifan Song Bill Yuchen Lin Wai Lam Graham Neubig Yuanzhi Li Xiang Yue VLM 117 49 0 09 Apr 2024
HYDRA: A Hyper Agent for Dynamic Compositional Visual Reasoning Fucai Ke Zhixi Cai Simindokht Jahangard Weiqing Wang P. D. Haghighi Hamid Rezatofighi LRM 87 11 0 19 Mar 2024
Yi: Open Foundation Models by 01.AI 01. AI Alex Young 01.AI Alex Young Bei Chen Chao Li ... Yue Wang Yuxuan Cai Zhenyu Gu Zhiyuan Liu Zonghong Dai OSLM LRM 269 571 0 07 Mar 2024
On the Multi-turn Instruction Following for Conversational Web Agents Yang Deng Xuan Zhang Wenxuan Zhang Yifei Yuan See-Kiong Ng Tat-Seng Chua LLMAG LM&Ro 70 24 0 23 Feb 2024
SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang Zhiyong Wu LLMAG 244 187 0 17 Jan 2024
ExpeL: LLM Agents Are Experiential Learners Andrew Zhao Daniel Huang Quentin Xu Matthieu Lin Yang Liu Gao Huang LLMAG 106 223 0 20 Aug 2023
WebArena: A Realistic Web Environment for Building Autonomous Agents Shuyan Zhou Frank F. Xu Hao Zhu Xuhui Zhou Robert Lo ... Tianyue Ou Yonatan Bisk Daniel Fried Uri Alon Graham Neubig LLMAG 176 490 0 25 Jul 2023
Mind2Web: Towards a Generalist Agent for the Web Xiang Deng Yu Gu Boyuan Zheng Shijie Chen Samuel Stevens Boshi Wang Huan Sun Yu-Chuan Su LLMAG 105 484 0 09 Jun 2023
Ghost in the Minecraft: Generally Capable Agents for Open-World Environments via Large Language Models with Text-based Knowledge and Memory Xizhou Zhu Yuntao Chen Hao Tian Chenxin Tao Weijie Su ... Lewei Lu Xiaogang Wang Yu Qiao Zhaoxiang Zhang Jifeng Dai LLMAG LM&Ro 82 240 0 25 May 2023
Voyager: An Open-Ended Embodied Agent with Large Language Models Guanzhi Wang Yuqi Xie Yunfan Jiang Ajay Mandlekar Chaowei Xiao Yuke Zhu Linxi Fan Anima Anandkumar LM&Ro SyDa 152 838 0 25 May 2023
RET-LLM: Towards a General Read-Write Memory for Large Language Models Ali Modarressi Ayyoob Imani Mohsen Fayyaz Hinrich Schütze KELM LLMAG 58 35 0 23 May 2023
MemoryBank: Enhancing Large Language Models with Long-Term Memory Wanjun Zhong Lianghong Guo Qi-Fei Gao He Ye Yanlin Wang LLMAG RALM KELM 86 137 0 17 May 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 569 4,910 0 17 Apr 2023
Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards and Ethical Behavior in the MACHIAVELLI Benchmark Alexander Pan Chan Jun Shern Andy Zou Nathaniel Li Steven Basart Thomas Woodside Jonathan Ng Hanlin Zhang Scott Emmons Dan Hendrycks 79 133 0 06 Apr 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.5K 14,699 0 15 Mar 2023
Vision-Language Pre-training: Basics, Recent Advances, and Future Trends Zhe Gan Linjie Li Chunyuan Li Lijuan Wang Zicheng Liu Jianfeng Gao VLM 60 166 0 17 Oct 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 436 2,955 0 06 Oct 2022
WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents Shunyu Yao Howard Chen John Yang Karthik Narasimhan LLMAG LM&Ro 159 516 0 04 Jul 2022
ScienceWorld: Is your Agent Smarter than a 5th Grader? Ruoyao Wang Peter Alexander Jansen Marc-Alexandre Côté Prithviraj Ammanabrolu LLMAG ReLM LRM 106 128 0 14 Mar 2022
iGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks Chengshu Li Fei Xia Roberto Martín-Martín Michael Lingelbach S. Srivastava ... Karen Liu H. Gweon Jiajun Wu Li Fei-Fei Silvio Savarese LM&Ro 224 236 0 06 Aug 2021
Grounding Open-Domain Instructions to Automate Web Support Tasks N. Xu Sam Masling Michael Du Giovanni Campagna Larry Heck James A. Landay M. Lam LLMAG AI4TS 54 44 0 30 Mar 2021
ALFWorld: Aligning Text and Embodied Environments for Interactive Learning Mohit Shridhar Xingdi Yuan Marc-Alexandre Côté Yonatan Bisk Adam Trischler Matthew J. Hausknecht LM&Ro LLMAG 92 443 0 08 Oct 2020
ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks Mohit Shridhar Jesse Thomason Daniel Gordon Yonatan Bisk Winson Han Roozbeh Mottaghi Luke Zettlemoyer Dieter Fox LM&Ro 117 779 0 03 Dec 2019
Interactive Fiction Games: A Colossal Adventure Matthew J. Hausknecht Prithviraj Ammanabrolu Marc-Alexandre Côté Xingdi Yuan LLMAG LM&Ro AI4CE 62 197 0 11 Sep 2019
MineRL: A Large-Scale Dataset of Minecraft Demonstrations William H. Guss Brandon Houghton Nicholay Topin Phillip Wang Cayden R. Codel Manuela Veloso Ruslan Salakhutdinov OffRL 68 227 0 29 Jul 2019
Habitat: A Platform for Embodied AI Research Manolis Savva Abhishek Kadian Oleksandr Maksymets Yili Zhao Erik Wijmans ... Jia-Wei Liu V. Koltun Jitendra Malik Devi Parikh Dhruv Batra LM&Ro 120 1,421 0 02 Apr 2019
Adaptive Online Learning in Dynamic Environments Lijun Zhang Shiyin Lu Zhi Zhou 75 185 0 25 Oct 2018
On Evaluation of Embodied Navigation Agents Peter Anderson Angel X. Chang Devendra Singh Chaplot Alexey Dosovitskiy Saurabh Gupta ... Jana Kosecka Jitendra Malik Roozbeh Mottaghi Manolis Savva Amir Zamir 117 802 0 18 Jul 2018
TextWorld: A Learning Environment for Text-based Games Marc-Alexandre Côté Ákos Kádár Xingdi Yuan Ben A. Kybartas Tavian Barnes ... Matthew J. Hausknecht Layla El Asri Mahmoud Adada Wendy Tay Adam Trischler LLMAG 46 372 0 29 Jun 2018
VirtualHome: Simulating Household Activities via Programs Xavier Puig K. Ra Marko Boben Jiaman Li Tingwu Wang Sanja Fidler Antonio Torralba LM&Ro 98 499 0 19 Jun 2018
Learning to Adapt in Dynamic, Real-World Environments Through Meta-Reinforcement Learning Anusha Nagabandi I. Clavera Simin Liu R. Fearing Pieter Abbeel Sergey Levine Chelsea Finn 130 553 0 30 Mar 2018
AI2-THOR: An Interactive 3D Environment for Visual AI Eric Kolve Roozbeh Mottaghi Winson Han Eli VanderBilt Luca Weihs ... Daniel Gordon Yuke Zhu Aniruddha Kembhavi Abhinav Gupta Ali Farhadi LM&Ro 84 1,110 0 14 Dec 2017
Playing Atari with Deep Reinforcement Learning Volodymyr Mnih Koray Kavukcuoglu David Silver Alex Graves Ioannis Antonoglou Daan Wierstra Martin Riedmiller 129 12,265 0 19 Dec 2013