Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V

16 April 2024

Papers citing "Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V"

29 / 29 papers shown

Title
OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning Fanqi Lin Ruiqian Nai Yingdong Hu Jiacheng You Junming Zhao Yang Gao LRM 4 0 0 17 May 2025
3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks V. Bhat Yu-Hsiang Lan Prashanth Krishnamurthy Ramesh Karri Farshad Khorrami 52 0 0 09 May 2025
MORE: Mobile Manipulation Rearrangement Through Grounded Language Reasoning Mohammad Mohammadi Daniel Honerkamp Martin Buchner Matteo Cassinelli Tim Welschehold Fabien Despinoy Igor Gilitschenski Abhinav Valada LM&Ro LRM 36 0 0 05 May 2025
$$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization$ $π_{0.5}$ : a Vision-Language-Action Model with Open-World Generalization Physical Intelligence Kevin Black Noah Brown James Darpinian Karan Dhabalia ... Homer Walke Anna Walling Haohuan Wang Lili Yu Ury Zhilinsky LM&Ro VLM 39 12 0 22 Apr 2025
RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics Zhiyuan Zhang Yuxin He Yong Sun Junyu Shi Lijiang Liu Qiang Nie VLM 49 0 0 02 Apr 2025
EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks Yi Zhang Qiang Zhang Xiaozhu Ju Ziqiang Liu Jilei Mao ... Jiaxu Wang Yiqun Duan Jiahang Cao Renjing Xu Jian Tang LM&Ro LRM 62 0 0 14 Mar 2025
MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation P. Zhang Xianqiang Gao Yuhan Wu Kehui Liu Dong Wang Z. Wang Bin Zhao Yan Ding X. Li LM&Ro 53 1 0 14 Mar 2025
LightPlanner: Unleashing the Reasoning Capabilities of Lightweight Large Language Models in Task Planning Weijie Zhou Yi Peng Manli Tao Chaoyang Zhao Honghui Dong Ming Tang J. T. Wang LLMAG LRM 52 0 0 11 Mar 2025
Generative Artificial Intelligence in Robotic Manipulation: A Survey Kun Zhang Peng Yun Jun Cen Junhao Cai DiDi Zhu ... Qifeng Chen Jia Pan Wei Zhang Bo Yang Hua Chen 59 1 0 05 Mar 2025
Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models Lucy Xiaoyang Shi Brian Ichter Michael Equi Liyiming Ke Karl Pertsch ... Adrian Li-Bell Danny Driess Lachy Groom Sergey Levine Chelsea Finn LM&Ro LRM 95 8 0 26 Feb 2025
Task-Driven Co-Design of Mobile Manipulators Raphael Schneider Daniel Honerkamp Tim Welschehold Abhinav Valada 106 1 0 21 Dec 2024
DaDu-E: Rethinking the Role of Large Language Model in Robotic Computing Pipeline Wenhao Sun Sai Hou Zehao Wang Bo Yu Shaoshan Liu Xu Yang Shuai Liang Yiming Gan Yinhe Han LLMAG 121 2 0 02 Dec 2024
BUMBLE: Unifying Reasoning and Acting with Vision-Language Models for Building-wide Mobile Manipulation Rutav Shah Albert Yu Yifeng Zhu Yuke Zhu Roberto Martín-Martín LM&Ro 45 6 0 08 Oct 2024
ConceptAgent: LLM-Driven Precondition Grounding and Tree Search for Robust Task Planning and Execution Corban Rivera Grayson Byrd William Paul Tyler Feldman Meghan Booker ... Krishna Murthy Jatavallabhula Celso M. De Melo Lalithkumar Seenivasan Mathias Unberath Rama Chellappa LLMAG LM&Ro 31 0 0 08 Oct 2024
FoAM: Foresight-Augmented Multi-Task Imitation Policy for Robotic Manipulation Litao Liu Wentao Wang Yifan Han Zhuoli Xie Pengfei Yi Junyan Li Yi Qin Wenzhao Lian 37 2 0 29 Sep 2024
MHRC: Closed-loop Decentralized Multi-Heterogeneous Robot Collaboration with Large Language Models Wenhao Yu Jie Peng Yueliang Ying Sai Li Jianmin Ji Yanyong Zhang 53 4 0 24 Sep 2024
SYNERGAI: Perception Alignment for Human-Robot Collaboration Yixin Chen Guoxi Zhang Yaowei Zhang Hongming Xu Peiyuan Zhi Qing Li Siyuan Huang 37 0 0 24 Sep 2024
AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots Zhaxizhuoma Pengan Chen Ziniu Wu Jiawei Sun Dong Wang Peng Zhou Nieqing Cao Yan Ding Bin Zhao Xuelong Li 46 4 0 18 Sep 2024
HiFi-CS: Towards Open Vocabulary Visual Grounding For Robotic Grasping Using Vision-Language Models V. Bhat Prashanth Krishnamurthy Ramesh Karri Farshad Khorrami 46 4 0 16 Sep 2024
DKPROMPT: Domain Knowledge Prompting Vision-Language Models for Open-World Planning Xiaohan Zhang Zainab Altaweel Yohei Hayamizu Yan Ding S. Amiri Hao Yang Andy Kaminski Chad Esselink Shiqi Zhang VLM LM&Ro 41 6 0 25 Jun 2024
RoboGolf: Mastering Real-World Minigolf with a Reflective Multi-Modality Vision-Language Model Hantao Zhou Tianying Ji Lukas Sommerhalder Michael Goerner Norman Hendrich Jianwei Zhang Fuchun Sun Huazhe Xu 50 0 0 14 Jun 2024
Language-Guided Manipulation with Diffusion Policies and Constrained Inpainting Ce Hao Kelvin Lin Siyuan Luo Harold Soh 36 4 0 14 Jun 2024
InterPreT: Interactive Predicate Learning from Language Feedback for Generalizable Task Planning Muzhi Han Yifeng Zhu Song-Chun Zhu Yingnian Wu Yuke Zhu 37 22 0 30 May 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 82 43 0 23 May 2024
OK-Robot: What Really Matters in Integrating Open-Knowledge Models for Robotics Peiqi Liu Yaswanth Orru Jay Vakil Chris Paxton Nur Muhammad (Mahi) Shafiullah Lerrel Pinto LM&Ro VLM 103 38 0 22 Jan 2024
Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning Yingdong Hu Fanqi Lin Tong Zhang Li Yi Yang Gao LM&Ro 91 102 0 29 Nov 2023
ProgPrompt: Generating Situated Robot Task Plans using Large Language Models Ishika Singh Valts Blukis Arsalan Mousavian Ankit Goyal Danfei Xu Jonathan Tremblay Dieter Fox Jesse Thomason Animesh Garg LM&Ro LLMAG 120 626 0 22 Sep 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 395 8,559 0 28 Jan 2022
Long-Horizon Manipulation of Unknown Objects via Task and Motion Planning with Estimated Affordances Aidan Curtis Xiaolin Fang L. Kaelbling Tomás Lozano-Pérez Caelan Reed Garrett 152 63 0 09 Aug 2021