Title
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges Ranjan Sapkota Yang Cao Konstantinos I. Roumeliotis Manoj Karkee LM&Ro 383 2 0 07 May 2025
Shadow: Leveraging Segmentation Masks for Cross-Embodiment Policy Transfer Marion Lepert Ria Doshi Jeannette Bohg 73 4 0 02 Mar 2025
Embodied CoT Distillation From LLM To Off-the-shelf Agents Wonje Choi Woo Kyung Kim Minjong Yoo Honguk Woo OffRL LM&Ro 149 3 0 16 Dec 2024
DexMimicGen: Automated Data Generation for Bimanual Dexterous Manipulation via Imitation Learning Zhenyu Jiang Yuqi Xie K. Lin Zhenjia Xu Weikang Wan Ajay Mandlekar Linxi Fan Yuke Zhu 105 30 0 31 Oct 2024
SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation Yining Hong Beide Liu Maxine Wu Yuanhao Zhai Kai-Wei Chang ... Chung-Ching Lin Jianfeng Wang Zhiyong Yang Yingnian Wu Lijuan Wang VGen 86 7 0 30 Oct 2024
DexGraspNet 2.0: Learning Generative Dexterous Grasping in Large-scale Synthetic Cluttered Scenes Jialiang Zhang Haoran Liu Danshi Li Xinqiang Yu Haoran Geng Yufei Ding Jiayi Chen He Wang 71 21 0 30 Oct 2024
Diffusion for Multi-Embodiment Grasping Roman Freiberg Alexander Qualmann Ngo Anh Vien Gerhard Neumann 59 3 0 24 Oct 2024
WorldSimBench: Towards Video Generation Models as World Simulators Yiran Qin Zhelun Shi Jiwen Yu Xijun Wang Enshen Zhou ... Lu Sheng Jing Shao Junlin Wu Wanli Ouyang Ruimao Zhang EGVM VGen 192 469 0 23 Oct 2024
ALOHA Unleashed: A Simple Recipe for Robot Dexterity Tony Zhao Jonathan Tompson Danny Driess Pete Florence Kamyar Ghasemipour Chelsea Finn Ayzaan Wahid 95 80 0 17 Oct 2024
RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation Songming Liu Lingxuan Wu Bangguo Li Hengkai Tan Huayu Chen Zhengyi Wang Ke Xu Hang Su Jun Zhu 119 113 0 10 Oct 2024
GR-2: A Generative Video-Language-Action Model with Web-Scale Knowledge for Robot Manipulation Chi-Lam Cheang Guangzeng Chen Ya Jing Tao Kong Hang Li ... Hongtao Wu Jiafeng Xu Yichu Yang Hanbo Zhang Minzhao Zhu VGen LM&Ro 107 72 0 08 Oct 2024
Autoregressive Action Sequence Learning for Robotic Manipulation Xinyu Zhang Yuhan Liu Haonan Chang Liam Schramm Abdeslam Boularias 103 16 0 04 Oct 2024
Towards Generalizable Vision-Language Robotic Manipulation: A Benchmark and LLM-guided 3D Policy Ricardo Garcia Shizhe Chen Cordelia Schmid LM&Ro 90 14 0 02 Oct 2024
Robotic-CLIP: Fine-tuning CLIP on Action Data for Robotic Applications Nghia Nguyen Minh Nhat Vu Tung D. Ta Baoru Huang T. Vo Ngan Le Anh Nguyen VLM CLIP 72 5 0 26 Sep 2024
Gen2Act: Human Video Generation in Novel Scenarios enables Generalizable Robot Manipulation Homanga Bharadhwaj Debidatta Dwibedi Abhinav Gupta Shubham Tulsiani Carl Doersch Ted Xiao Dhruv Shah Fei Xia Dorsa Sadigh Sean Kirmani VGen LM&Ro 90 37 0 24 Sep 2024
RACER: Rich Language-Guided Failure Recovery Policies for Imitation Learning Yinpei Dai Jayjun Lee Nima Fazeli Joyce Chai 51 13 0 23 Sep 2024
Precise Pick-and-Place using Score-Based Diffusion Networks Shih-Wei Guo Tsu-Ching Hsiao Yu-Lun Liu Chun-Yi Lee DiffM 60 1 0 15 Sep 2024
ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation Wenlong Huang Chen Wang Yongqian Li Ruohan Zhang Li Fei-Fei 119 113 0 03 Sep 2024
Flow as the Cross-Domain Manipulation Interface Mengda Xu Zhenjia Xu Yinghao Xu Cheng Chi Gordon Wetzstein Manuela Veloso Shuran Song AI4CE 111 45 0 21 Jul 2024
GRUtopia: Dream General Robots in a City at Scale Hanqing Wang Jiahe Chen Wensi Huang Qingwei Ben Tai Wang ... Ying Zhao Zhongying Tu Yu Qiao Dahua Lin Jiangmiao Pang LM&Ro VGen 100 17 0 15 Jul 2024
VLMPC: Vision-Language Model Predictive Control for Robotic Manipulation Wentao Zhao Jiaming Chen Ziyu Meng Donghui Mao Ran Song Wei Zhang 100 11 0 13 Jul 2024
Equivariant Diffusion Policy Dian Wang Stephen M. Hart David Surovik Tarik Kelestemur Haojie Huang Haibo Zhao Mark Yeatman Jiuguang Wang Robin Walters Robert Platt DiffM 104 29 0 01 Jul 2024
EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning Jingyun Yang Zi-ang Cao Congyue Deng Rika Antonova Shuran Song Jeannette Bohg DiffM 92 36 0 01 Jul 2024
Dreamitate: Real-World Visuomotor Policy Learning via Video Generation Junbang Liang Ruoshi Liu Ege Ozguroglu Sruthi Sudhakar Achal Dave P. Tokmakov Shuran Song Carl Vondrick VGen 76 28 0 24 Jun 2024
VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model Jie Zhang Sibo Wang Xiangkui Cao Zheng Yuan Shiguang Shan Xilin Chen Wen Gao VLM 57 9 0 20 Jun 2024
Imagination Policy: Using Generative Point Cloud Models for Learning Manipulation Policies Haojie Huang Karl Schmeckpeper Dian Wang Ondrej Biza Yaoyao Qian Haotian Liu Mingxi Jia Robert Platt Robin Walters VGen LM&Ro 65 8 0 17 Jun 2024
BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation Dongjie Yu Hang Xu Yizhou Chen Yi Ren Jia Pan 72 4 0 14 Jun 2024
Language-driven Grasp Detection An Dinh Vuong Minh Nhat Vu Baoru Huang Nghia Nguyen Hieu Le T. Vo Anh Nguyen VLM 87 19 0 13 Jun 2024
OpenVLA: An Open-Source Vision-Language-Action Model Moo Jin Kim Karl Pertsch Siddharth Karamcheti Ted Xiao Ashwin Balakrishna ... Russ Tedrake Dorsa Sadigh Sergey Levine Percy Liang Chelsea Finn LM&Ro VLM 235 517 0 13 Jun 2024
RVT-2: Learning Precise Manipulation from Few Demonstrations Ankit Goyal Valts Blukis Jie Xu Yijie Guo Yu-Wei Chao Dieter Fox 69 56 0 12 Jun 2024
Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation Peize Sun Yi Jiang Shoufa Chen Shilong Zhang Bingyue Peng Ping Luo Zehuan Yuan VLM 109 292 0 10 Jun 2024
VideoPhy: Evaluating Physical Commonsense for Video Generation Hritik Bansal Zongyu Lin Tianyi Xie Zeshun Zong Michal Yarom Yonatan Bitton Chenfanfu Jiang Ningyu Zhang Kai-Wei Chang Aditya Grover EGVM VGen 83 44 0 05 Jun 2024
FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning Yuwei Fu Haichao Zhang Di Wu Wei Xu Benoit Boulet VLM 108 15 0 02 Jun 2024
Cross-Domain Policy Adaptation by Capturing Representation Mismatch Jiafei Lyu Chenjia Bai Jingwen Yang Zongqing Lu Xiu Li 78 12 0 24 May 2024
GrainGrasp: Dexterous Grasp Generation with Fine-grained Contact Guidance Fuqiang Zhao Dzmitry Tsetserukou Qian Liu 56 3 0 15 May 2024
Consistency Policy: Accelerated Visuomotor Policies via Consistency Distillation Aaditya Prasad Kevin Qinghong Lin Jimmy Wu Linqi Zhou Jeannette Bohg 78 60 0 13 May 2024
Learning Reward for Robot Skills Using Large Language Models via Self-Alignment Yuwei Zeng Yao Mu Lin Shao 61 13 0 12 May 2024
Plan-Seq-Learn: Language Model Guided RL for Solving Long Horizon Robotics Tasks Murtaza Dalal Tarun Chiruvolu Devendra Singh Chaplot Ruslan Salakhutdinov LM&Ro 105 44 0 02 May 2024
IntervenGen: Interventional Data Generation for Robust and Data-Efficient Robot Imitation Learning Ryan Hoque Ajay Mandlekar Caelan Reed Garrett Ken Goldberg Dieter Fox 80 15 0 02 May 2024
NeRF in Robotics: A Survey Guangming Wang Lei Pan Songyou Peng Shaohui Liu Chenfeng Xu Yanzi Miao Wei Zhan Masayoshi Tomizuka Marc Pollefeys Hesheng Wang 75 14 0 02 May 2024
What Foundation Models can Bring for Robot Learning in Manipulation : A Survey Dingzhe Li Yixiang Jin A. Yong Hongze Yu Jun Shi Xiaoshuai Hao Peng Hao Huaping Liu Gang Hua Bin Fang AI4CE LM&Ro 152 14 0 28 Apr 2024
Single-View Scene Point Cloud Human Grasp Generation Yan-Kang Wang Chengyi Xing Yi-Lin Wei Xiao-Ming Wu Wei-Shi Zheng 75 10 0 24 Apr 2024
DoughNet: A Visual Predictive Model for Topological Manipulation of Deformable Objects Dominik Bauer Zhenjia Xu Shuran Song AI4CE 78 7 0 18 Apr 2024
G-HOP: Generative Hand-Object Prior for Interaction Reconstruction and Grasp Synthesis Yufei Ye Abhinav Gupta Kris Kitani Shubham Tulsiani 74 17 0 18 Apr 2024
Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V Peiyuan Zhi Zhiyuan Zhang Muzhi Han Zeyu Zhang Zhitian Li Ziyuan Jiao Ziyuan Jiao Siyuan Huang Siyuan Huang LRM LM&Ro 87 32 0 16 Apr 2024
Constrained 6-DoF Grasp Generation on Complex Shapes for Improved Dual-Arm Manipulation Gaurav Singh Sanket Kalwar Md Faizal Karim Bipasha Sen Nagamanikandan Govindan Srinath Sridhar K. M. Krishna 71 7 0 06 Apr 2024
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction Keyu Tian Yi Jiang Zehuan Yuan Bingyue Peng Liwei Wang VGen 89 340 0 03 Apr 2024
Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions Saptarshi Dasgupta Akshat Gupta Shreshth Tuli Rohan Paul 96 3 0 02 Apr 2024
ManiGaussian: Dynamic Gaussian Splatting for Multi-task Robotic Manipulation Guanxing Lu Shiyi Zhang Ziwei Wang Changliu Liu Jiwen Lu Yansong Tang 92 56 0 13 Mar 2024
Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation Xiao Ma Sumit Patidar Iain Haughton Stephen James 91 55 0 06 Mar 2024