v1v2 (latest)

SEM: Enhancing Spatial Understanding for Robust Robot Manipulation

22 May 2025

Papers citing "SEM: Enhancing Spatial Understanding for Robust Robot Manipulation"

25 / 25 papers shown

Title
Spatial-Temporal Graph Diffusion Policy with Kinematic Modeling for Bimanual Robotic Manipulation Qi Lv Hao Li Xiang Deng Rui Shao Yinchuan Li Haifeng Zhang Longxiang Gao Michael Yu Wang Liqiang Nie 114 2 0 13 Mar 2025
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 354 699 0 20 Feb 2025
Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models Xinghang Li Peiyan Li Minghuan Liu Dong Wang Jirong Liu Bingyi Kang Xiao Ma Tao Kong Hanbo Zhang Huaping Liu LM&Ro 167 26 0 18 Dec 2024
RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation Songming Liu Lingxuan Wu Bangguo Li Hengkai Tan Huayu Chen Zhengyi Wang Ke Xu Hang Su Jun Zhu 125 125 0 10 Oct 2024
OpenVLA: An Open-Source Vision-Language-Action Model Moo Jin Kim Karl Pertsch Siddharth Karamcheti Ted Xiao Ashwin Balakrishna ... Russ Tedrake Dorsa Sadigh Sergey Levine Percy Liang Chelsea Finn LM&Ro VLM 257 533 0 13 Jun 2024
RVT-2: Learning Precise Manipulation from Few Demonstrations Ankit Goyal Valts Blukis Jie Xu Yijie Guo Yu-Wei Chao Dieter Fox 73 57 0 12 Jun 2024
Octo: An Open-Source Generalist Robot Policy Octo Model Team Dibya Ghosh Homer Walke Karl Pertsch Kevin Black ... Quan Vuong Ted Xiao Dorsa Sadigh Chelsea Finn Sergey Levine 203 452 0 20 May 2024
3D Diffusion Policy: Generalizable Visuomotor Policy Learning via Simple 3D Representations Yanjie Ze Gu Zhang Kangning Zhang Chenyuan Hu Muhan Wang Huazhe Xu VGen 147 95 0 06 Mar 2024
3D Diffuser Actor: Policy Diffusion with 3D Scene Representations Tsung-Wei Ke N. Gkanatsios Katerina Fragkiadaki VGen 107 127 0 16 Feb 2024
Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation Théophile Gervet Zhou Xian N. Gkanatsios Katerina Fragkiadaki 116 75 0 30 Jun 2023
RVT: Robotic View Transformer for 3D Object Manipulation Ankit Goyal Jie Xu Yijie Guo Valts Blukis Yu-Wei Chao Dieter Fox LM&Ro 123 142 0 26 Jun 2023
PaLI-X: On Scaling up a Multilingual Vision and Language Model Xi Chen Josip Djolonga Piotr Padlewski Basil Mustafa Soravit Changpinyo ... Mojtaba Seyedhosseini A. Angelova Xiaohua Zhai N. Houlsby Radu Soricut VLM 150 204 0 29 May 2023
Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware Tony Zhao Vikash Kumar Sergey Levine Chelsea Finn 111 646 0 23 Apr 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 571 4,925 0 17 Apr 2023
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Shilong Liu Zhaoyang Zeng Tianhe Ren Feng Li Hao Zhang ... Chun-yue Li Jianwei Yang Hang Su Jun Zhu Lei Zhang ObjD 191 2,028 0 09 Mar 2023
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion Cheng Chi Zhenjia Xu S. Feng Eric A. Cousineau Yilun Du Benjamin Burchfiel Russ Tedrake Shuran Song 349 1,242 0 07 Mar 2023
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation Mohit Shridhar Lucas Manuelli Dieter Fox LM&Ro 277 501 0 12 Sep 2022
Behavior Transformers: Cloning $k$ modes with one stone Nur Muhammad (Mahi) Shafiullah Zichen Jeff Cui Ariuntuya Altanzaya Lerrel Pinto OffRL 74 240 0 22 Jun 2022
DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps Cheng Lu Yuhao Zhou Fan Bao Jianfei Chen Chongxuan Li Jun Zhu DiffM 241 1,464 0 02 Jun 2022
Implicit Behavioral Cloning Peter R. Florence Corey Lynch Andy Zeng Oscar Ramirez Ayzaan Wahid Laura Downs Adrian S. Wong Johnny Lee Igor Mordatch Jonathan Tompson OffRL 127 391 0 01 Sep 2021
RoFormer: Enhanced Transformer with Rotary Position Embedding Jianlin Su Yu Lu Shengfeng Pan Ahmed Murtadha Bo Wen Yunfeng Liu 329 2,533 0 20 Apr 2021
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 770 18,408 0 19 Jun 2020
TossingBot: Learning to Throw Arbitrary Objects with Residual Physics Andy Zeng Shuran Song Johnny Lee Alberto Rodriguez Thomas Funkhouser 118 384 0 27 Mar 2019
Behavioral Cloning from Observation F. Torabi Garrett A. Warnell Peter Stone OffRL 115 732 0 04 May 2018
Deep Imitation Learning for Complex Manipulation Tasks from Virtual Reality Teleoperation Tianhao Zhang Zoe McCarthy Owen Jow Dennis Lee Xi Chen Ken Goldberg Pieter Abbeel SSL 113 662 0 12 Oct 2017