Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds

20 October 2023

Papers citing "Steve-Eye: Equipping LLM-based Embodied Agents with Visual Perception in Open Worlds"

22 / 22 papers shown

Title
Multi-agent Embodied AI: Advances and Future Directions Zhaohan Feng Ruiqi Xue Lei Yuan Yang Yu Ning Ding M. Liu Bingzhao Gao Jian Sun Gang Wang AI4CE 57 1 0 08 May 2025
EduPlanner: LLM-Based Multi-Agent Systems for Customized and Intelligent Instructional Design Xiaotian Zhang Chao Zhang Jianwen Sun Jun Xiao Yi Yang Yawei Luo LLMAG AI4Ed 53 0 0 07 Apr 2025
AnimeGamer: Infinite Anime Life Simulation with Next Game State Prediction Junhao Cheng Yuying Ge Yixiao Ge Jing Liao Ying Shan VGen AI4CE 58 0 0 01 Apr 2025
GenSwarm: Scalable Multi-Robot Code-Policy Generation and Deployment via Language Models Wenkang Ji Huaben Chen Mingyang Chen Guobin Zhu Lufeng Xu Roderich Groß Rui Zhou Ming Cao Shiyu Zhao LM&Ro 40 0 0 31 Mar 2025
Taking Notes Brings Focus? Towards Multi-Turn Multimodal Dialogue Learning Jiazheng Liu Sipeng Zheng Börje F. Karlsson Zongqing Lu 34 0 0 10 Mar 2025
EvoAgent: Agent Autonomous Evolution with Continual World Model for Long-Horizon Tasks Tongtong Feng X. Wang Zekai Zhou Ren Wang Yuwei Zhan Guangyao Li Qing Li Wenwu Zhu LM&Ro 71 0 0 09 Feb 2025
Visual Large Language Models for Generalized and Specialized Applications Yifan Li Zhixin Lai Wentao Bao Zhen Tan Anh Dao Kewei Sui Jiayi Shen Dong Liu Huan Liu Yu Kong VLM 88 11 0 06 Jan 2025
Multi-Modal Grounded Planning and Efficient Replanning For Learning Embodied Agents with A Few Examples Taewoong Kim Byeonghwi Kim Jonghyun Choi LLMAG LM&Ro 49 1 0 23 Dec 2024
Scaling Large Motion Models with Million-Level Human Motions Ye Wang Sipeng Zheng Bin Cao Qianshan Wei Qin Jin Qin Jin Zongqing Lu VGen 42 0 0 04 Oct 2024
VideoGameBunny: Towards vision assistants for video games Mohammad Reza Taesiri C. Bezemer VLM MLLM 33 2 0 21 Jul 2024
OmniJARVIS: Unified Vision-Language-Action Tokenization Enables Open-World Instruction Following Agents Zihao Wang Shaofei Cai Zhancun Mu Haowei Lin Ceyao Zhang Xuejie Liu Qing Li Guy Van den Broeck Xiaojian Ma Yitao Liang LM&Ro 46 12 0 27 Jun 2024
QuadrupedGPT: Towards a Versatile Quadruped Agent in Open-ended Worlds Ye Wang Yuting Mei Sipeng Zheng Qin Jin LRM 40 2 0 24 Jun 2024
Do We Really Need a Complex Agent System? Distill Embodied Agent into a Single Model Zhonghan Zhao Ke Ma Wenhao Chai Xuan Wang Kewei Chen Dongxu Guo Yanting Zhang Hongwei Wang Gaoang Wang 40 14 0 06 Apr 2024
A Survey on Large Language Model-Based Game Agents Sihao Hu Tiansheng Huang Gaowen Liu Ramana Rao Kompella Gaowen Liu Selim Furkan Tekin Yichang Xu Zachary Yahn Ling Liu LLMAG LM&Ro AI4CE LM&MA 71 51 0 02 Apr 2024
A Survey on Game Playing Agents and Large Models: Methods, Applications, and Challenges Xinrun Xu Yuxin Wang Chaoyi Xu Ziluo Ding Jiechuan Jiang Zhiming Ding Börje F. Karlsson LM&Ro LLMAG 84 15 0 15 Mar 2024
UniCode: Learning a Unified Codebook for Multimodal Large Language Models Sipeng Zheng Bohan Zhou Yicheng Feng Ye Wang Zongqing Lu VLM MLLM 46 7 0 14 Mar 2024
RL-GPT: Integrating Reinforcement Learning and Code-as-policy Shaoteng Liu Haoqi Yuan Minda Hu Yanwei Li Yukang Chen Shu Liu Zongqing Lu Jiaya Jia LLMAG 48 14 0 29 Feb 2024
On the Prospects of Incorporating Large Language Models (LLMs) in Automated Planning and Scheduling (APS) Vishal Pallagani Kaushik Roy Bharath Muppasani F. Fabiano Andrea Loreggia K. Murugesan Biplav Srivastava F. Rossi L. Horesh Amit P. Sheth 28 40 0 04 Jan 2024
Advances in Embodied Navigation Using Large Language Models: A Survey Jinzhou Lin Han Gao Xuxiang Feng Rongtao Xu Changwei Wang Man Zhang Li Guo Shibiao Xu LM&Ro LLMAG 68 9 0 01 Nov 2023
Octopus: Embodied Vision-Language Programmer from Environmental Feedback Jingkang Yang Yuhao Dong Shuai Liu Bo-wen Li Ziyue Wang ... Haoran Tan Jiamu Kang Yuanhan Zhang Kaiyang Zhou Ziwei Liu LM&Ro 52 45 0 12 Oct 2023
Generative Agents: Interactive Simulacra of Human Behavior J. Park Joseph C. O'Brien Carrie J. Cai Meredith Ringel Morris Percy Liang Michael S. Bernstein LM&Ro AI4CE 232 1,742 0 07 Apr 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 281 4,244 0 30 Jan 2023