3D-VLA: A 3D Vision-Language-Action Generative World Model

14 March 2024

Chuang Gan

Papers citing "3D-VLA: A 3D Vision-Language-Action Generative World Model"

30 / 30 papers shown

Title
VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation Chaofan Zhang Peng Hao Xiaoge Cao Xiaoshuai Hao Shaowei Cui Shuo Wang 29 0 0 14 May 2025
CLTP: Contrastive Language-Tactile Pre-training for 3D Contact Geometry Understanding Wenxuan Ma Xiaoge Cao Y. Zhang Chaofan Zhang Shaobo Yang Peng Hao Bin Fang Yinghao Cai Shaowei Cui Shuo Wang 33 0 0 13 May 2025
Task Reconstruction and Extrapolation for $π_0$ using Text Latent Quanyi Li 40 0 0 06 May 2025
Interleave-VLA: Enhancing Robot Manipulation with Interleaved Image-Text Instructions Cunxin Fan Xiaosong Jia Yihang Sun Yixiao Wang Jianglan Wei ... Xiangyu Zhao M. Tomizuka Xue Yang Junchi Yan Mingyu Ding LM&Ro VLM 66 2 0 04 May 2025
Robotic Visual Instruction Y. Li Ziyang Gong H. Li Xiaoqi Huang Haolan Kang Guangping Bai Xianzheng Ma LM&Ro 76 0 0 01 May 2025
Generative AI in Embodied Systems: System-Level Analysis of Performance, Efficiency and Scalability Zishen Wan Jiayi Qian Yuhang Du Jason J. Jabbour Yilun Du Yang Katie Zhao A. Raychowdhury Tushar Krishna Vijay Janapa Reddi LM&Ro 91 0 0 26 Apr 2025
A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation Rongtao Xu J. Zhang Minghao Guo Youpeng Wen H. Yang ... Liqiong Wang Yuxuan Kuang Meng Cao Feng Zheng Xiaodan Liang 47 3 0 17 Apr 2025
AdaWorld: Learning Adaptable World Models with Latent Actions Shenyuan Gao Siyuan Zhou Yilun Du Jun Zhang Chuang Gan VGen 62 3 0 24 Mar 2025
Curiosity-Diffuser: Curiosity Guide Diffusion Models for Reliability Zihao Liu Xing Liu Yizhai Zhang Zhengxiong Liu Panfeng Huang 66 0 0 19 Mar 2025
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots Nvidia Johan Bjorck Fernando Castañeda Nikita Cherniadev Xingye Da ... Ao Zhang Hao Zhang Yizhou Zhao Ruijie Zheng Yuke Zhu VLM 68 19 0 18 Mar 2025
PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability Weijie Zhou Manli Tao Chaoyang Zhao Haiyun Guo Honghui Dong Ming Tang J. T. Wang 46 0 0 11 Mar 2025
Integrating Chain-of-Thought for Multimodal Alignment: A Study on 3D Vision-Language Learning Yanjun Chen Yirong Sun Xinghao Chen Jian Wang Xiaoyu Shen W. Li Wei Zhang 3DV LRM 64 1 0 08 Mar 2025
System 0/1/2/3: Quad-process theory for multi-timescale embodied collective cognitive systems Tadahiro Taniguchi Yasushi Hirai Masahiro Suzuki Shingo Murata Takato Horii Kazutoshi Tanaka AI4CE 55 0 0 08 Mar 2025
VLA Model-Expert Collaboration for Bi-directional Manipulation Learning Tian-Yu Xiang Ao-Qun Jin Xiao-Hu Zhou Mei-Jiang Gui Xiao-Liang Xie ... Shuang-Yi Wang Sheng-Bin Duang Si-Cheng Wang Zheng Lei Z. Hou 58 1 0 06 Mar 2025
DMWM: Dual-Mind World Model with Long-Term Imagination Lingyi Wang Rashed Shelim Walid Saad Naren Ramakrishnan LRM 145 1 0 11 Feb 2025
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control Junjie Wen Y. X. Zhu Jinming Li Zhibin Tang Chaomin Shen Feifei Feng VLM 55 12 0 09 Feb 2025
LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences Hongyan Zhi Peihao Chen Junyan Li Shuailei Ma Xinyu Sun Tianhang Xiang Yinjie Lei Mingkui Tan Chuang Gan 72 3 0 02 Dec 2024
Few-Shot Task Learning through Inverse Generative Modeling Aviv Netanyahu Yilun Du Antonia Bronars Jyothish Pari J. Tenenbaum Tianmin Shu Pulkit Agrawal 49 1 0 07 Nov 2024
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation Qingwen Bu Hongyang Li Li Chen Jisong Cai Jia Zeng Heming Cui Maoqing Yao Yu Qiao 43 4 0 10 Oct 2024
SPARTUN3D: Situated Spatial Understanding of 3D World in Large Language Models Yue Zhang Zhiyang Xu Ying Shen Parisa Kordjamshidi Lifu Huang 34 6 0 04 Oct 2024
FoAM: Foresight-Augmented Multi-Task Imitation Policy for Robotic Manipulation Litao Liu Wentao Wang Yifan Han Zhuoli Xie Pengfei Yi Junyan Li Yi Qin Wenzhao Lian 37 2 0 29 Sep 2024
Embodiment-Agnostic Action Planning via Object-Part Scene Flow Weiliang Tang Jia-Hui Pan Wei Zhan Jianshu Zhou Huaxiu Yao Yun-Hui Liu M. Tomizuka Mingyu Ding Chi-Wing Fu 47 0 0 16 Sep 2024
Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding Yunze Man Shuhong Zheng Zhipeng Bao M. Hebert Liang-Yan Gui Yu-xiong Wang 72 15 0 05 Sep 2024
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy Xiang Li Cristina Mata J. Park Kumara Kahatapitiya Yoo Sung Jang ... Kanchana Ranasinghe R. Burgert Mu Cai Yong Jae Lee Michael S. Ryoo LM&Ro 64 25 0 28 Jun 2024
Mitigating the Human-Robot Domain Discrepancy in Visual Pre-training for Robotic Manipulation Jiaming Zhou Teli Ma Kun-Yu Lin Ronghe Qiu Zifan Wang Junwei Liang 49 3 0 20 Jun 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 74 41 0 23 May 2024
DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset Alexander Khazatsky Karl Pertsch Suraj Nair Ashwin Balakrishna Sudeep Dasari ... Thomas Kollar Sergey Levine Chelsea Finn Sergey Levine Chelsea Finn 49 176 0 19 Mar 2024
Grounding Language with Visual Affordances over Unstructured Data Oier Mees Jessica Borja-Diaz Wolfram Burgard LM&Ro 121 108 0 04 Oct 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong S. Hoi MLLM BDL VLM CLIP 392 4,125 0 28 Jan 2022
Playing with Food: Learning Food Item Representations through Interactive Exploration A. Sawhney Steven Lee Kevin Zhang Manuela Veloso Oliver Kroemer 43 23 0 06 Jan 2021