MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active
Perception

v1v2v3v4 (latest)

MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception

12 December 2023

Yu Qiao

ArXiv (abs)PDF HTML

Papers citing "MP5: A Multi-modal Open-ended Embodied System in Minecraft via Active Perception"

15 / 15 papers shown

Title
The Latent Space Hypothesis: Toward Universal Medical Representation Learning Salil Patel 146 0 0 04 Jun 2025
MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind Zhenru Zhang Nuoqian Xiao Qi Chai Deheng Ye Hao Wang LLMAG LRM 150 0 0 25 Apr 2025
Manipulating Multimodal Agents via Cross-Modal Prompt Injection Le Wang Zonghao Ying Tianyuan Zhang Siyuan Liang Shengshan Hu Mingchuan Zhang A. Liu Xianglong Liu AAML 146 4 0 19 Apr 2025
EscapeCraft: A 3D Room Escape Environment for Benchmarking Complex Multimodal Reasoning Ability Zehua Wang Yurui Dong Ziyue Wang Minyuan Ruan Zhili Cheng Chong Chen Ziwei Sun Yang Liu LRM 138 1 0 13 Mar 2025
SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model Yongting Zhang Lu Chen Guodong Zheng Yifeng Gao Rui Zheng ... Yu Qiao Xuanjing Huang Feng Zhao Tao Gui Jing Shao VLM 168 33 0 17 Jun 2024
Exploring the Potential of Large Language Models for Improving Digital Forensic Investigation Efficiency Akila Wickramasekara Frank Breitinger Mark Scanlon 120 9 0 29 Feb 2024
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality Qinghao Ye Haiyang Xu Guohai Xu Jiabo Ye Ming Yan ... Junfeng Tian Qiang Qi Ji Zhang Feiyan Huang Jingren Zhou VLM MLLM 288 955 0 27 Apr 2023
Open-World Multi-Task Control Through Goal-Aware Representation Learning and Adaptive Horizon Prediction Shaofei Cai Zihao Wang Xiaojian Ma Hoang Trung-Dung Yitao Liang 91 42 0 21 Jan 2023
Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos Bowen Baker Ilge Akkaya Peter Zhokhov Joost Huizinga Jie Tang Adrien Ecoffet Brandon Houghton Raul Sampedro Jeff Clune OffRL 130 303 0 23 Jun 2022
A Generalist Agent Scott E. Reed Konrad Zolna Emilio Parisotto Sergio Gomez Colmenarejo Alexander Novikov ... Yutian Chen R. Hadsell Oriol Vinyals Mahyar Bordbar Nando de Freitas LM&Ro LLMAG AI4CE 211 824 0 12 May 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 845 9,644 0 28 Jan 2022
JueWu-MC: Playing Minecraft with Sample-efficient Hierarchical Reinforcement Learning Zichuan Lin Junyou Li Jianing Shi Deheng Ye Qiang Fu Wei Yang BDL 65 36 0 07 Dec 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 490 10,496 0 17 Jun 2021
MineRL: A Large-Scale Dataset of Minecraft Demonstrations William H. Guss Brandon Houghton Nicholay Topin Phillip Wang Cayden R. Codel Manuela Veloso Ruslan Salakhutdinov OffRL 68 227 0 29 Jul 2019
SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing Taku Kudo John Richardson 204 3,528 0 19 Aug 2018