From Grounding to Manipulation: Case Studies of Foundation Model Integration in Embodied Robotic Systems

21 May 2025

Papers citing "From Grounding to Manipulation: Case Studies of Foundation Model Integration in Embodied Robotic Systems"

21 / 21 papers shown

Title
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions Qingwen Bu Yanting Yang Jisong Cai Shenyuan Gao Guanghui Ren Maoqing Yao Ping Luo Hongyang Li 275 5 0 09 May 2025
LLM-Empowered Embodied Agent for Memory-Augmented Task Planning in Household Robotics Marc Glocker Peter Honig Matthias Hirschmanner Markus Vincze LM&Ro 106 2 0 30 Apr 2025
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks Chia-Yu Hung Qi Sun Pengfei Hong Amir Zadeh Chuan Li U-Xuan Tan Navonil Majumder Soujanya Poria LM&Ro 84 2 0 28 Apr 2025
$$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization$ $π_{0.5}$ : a Vision-Language-Action Model with Open-World Generalization Physical Intelligence Kevin Black Noah Brown James Darpinian Karan Dhabalia ... Homer Walke Anna Walling Haohuan Wang Lili Yu Ury Zhilinsky LM&Ro VLM 75 25 0 22 Apr 2025
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots Nvidia Johan Bjorck Fernando Castañeda Nikita Cherniadev Xingye Da ... Ao Zhang Hao Zhang Yizhou Zhao Ruijie Zheng Yuke Zhu VLM 106 37 0 18 Mar 2025
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model Jiaming Liu Hao Chen Pengju An Zhuoyang Liu Renrui Zhang ... Chengkai Hou Mengdi Zhao KC alex Zhou Pheng-Ann Heng Shanghang Zhang 98 14 0 13 Mar 2025
Diffusion Trajectory-guided Policy for Long-horizon Robot Manipulation Shichao Fan Quantao Yang Yajie Liu Kun Wu Zhengping Che Qingjie Liu Min Wan 41 3 0 17 Feb 2025
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control Junjie Wen Yinlin Zhu Jinming Li Zhibin Tang Yaxin Peng Feifei Feng VLM 75 18 0 09 Feb 2025
FAST: Efficient Action Tokenization for Vision-Language-Action Models Karl Pertsch Kyle Stachowicz Brian Ichter Danny Driess Suraj Nair Q. Vuong Oier Mees Chelsea Finn Sergey Levine 61 47 0 17 Jan 2025
CogACT: A Foundational Vision-Language-Action Model for Synergizing Cognition and Action in Robotic Manipulation Qixiu Li Yaobo Liang Zeyu Wang Lin Luo Xi Chen ... Jianmin Bao Dong Chen Yuanchun Shi Jiaolong Yang B. Guo LM&Ro 107 29 0 29 Nov 2024
RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation Songming Liu Lingxuan Wu Bangguo Li Hengkai Tan Huayu Chen Zhengyi Wang Ke Xu Hang Su Jun Zhu 62 102 0 10 Oct 2024
MMRo: Are Multimodal LLMs Eligible as the Brain for In-Home Robotics? Jinming Li Yichen Zhu Zhiyuan Xu Jindong Gu Minjie Zhu Xin Liu Ning Liu Yaxin Peng Feifei Feng Jian Tang LRM LM&Ro 63 7 0 28 Jun 2024
Transferable Tactile Transformers for Representation Learning Across Diverse Sensors and Tasks Jialiang Zhao Yuxiang Ma Lirui Wang Edward H. Adelson 43 21 0 19 Jun 2024
Octo: An Open-Source Generalist Robot Policy Octo Model Team Dibya Ghosh Homer Walke Karl Pertsch Kevin Black ... Quan Vuong Ted Xiao Dorsa Sadigh Chelsea Finn Sergey Levine 122 392 0 20 May 2024
Hierarchical Open-Vocabulary 3D Scene Graphs for Language-Grounded Robot Navigation Abdelrhman Werby Chen Huang M. Büchner Abhinav Valada Wolfram Burgard 63 70 0 26 Mar 2024
DeepSeek-VL: Towards Real-World Vision-Language Understanding Haoyu Lu Wen Liu Bo Zhang Bing-Li Wang Kai Dong ... Yaofeng Sun Chengqi Deng Hanwei Xu Zhenda Xie Chong Ruan VLM 63 333 0 08 Mar 2024
Binding Touch to Everything: Learning Unified Multimodal Tactile Representations Fengyu Yang Chao Feng Ziyang Chen Hyoungseob Park Daniel Wang ... Ziyao Zeng Xien Chen Rit Gangopadhyay Andrew Owens Alex Wong 83 65 0 31 Jan 2024
ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation Xiaoqi Li Mingxu Zhang Yiran Geng Haoran Geng Yuxing Long Yan Shen Renrui Zhang Jiaming Liu Hao Dong LM&Ro LRM 75 90 0 24 Dec 2023
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Shilong Liu Zhaoyang Zeng Tianhe Ren Feng Li Hao Zhang ... Chun-yue Li Jianwei Yang Hang Su Jun Zhu Lei Zhang ObjD 159 1,893 0 09 Mar 2023
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion Cheng Chi Zhenjia Xu S. Feng Eric A. Cousineau Yilun Du Benjamin Burchfiel Russ Tedrake Shuran Song 209 1,112 0 07 Mar 2023
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 430 129,831 0 12 Jun 2017