ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation

3 September 2024

Chen Wang

Li Fei-Fei

Papers citing "ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation"

36 / 36 papers shown

Title
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation Yifu Yuan Haiqin Cui Yibin Chen Zibin Dong Fei Ni Longxin Kou Jinyi Liu Pengyi Li Yan Zheng Jianye Hao 31 0 0 13 May 2025
Pixel Motion as Universal Representation for Robot Control Kanchana Ranasinghe Xiang Li Cristina Mata J. Park Michael S. Ryoo VGen 32 0 0 12 May 2025
CHD: Coupled Hierarchical Diffusion for Long-Horizon Tasks Ce Hao Anxing Xiao Zhiwei Xue Harold Soh 46 0 0 12 May 2025
SmallPlan: Leverage Small Language Models for Sequential Path Planning with Simulation-Powered, LLM-Guided Distillation Quang P.M. Pham Khoi T.N. Nguyen Nhi H. Doan Cuong Pham Kentaro Inui Dezhen Song 65 0 0 01 May 2025
Robotic Visual Instruction Y. Li Ziyang Gong Hao Li Xiaoqi Huang Haolan Kang Guangping Bai Xianzheng Ma LM&Ro 76 0 0 01 May 2025
A Survey of Interactive Generative Video Jiwen Yu Yiran Qin Haoxuan Che Quande Liu Xinyu Wang Pengfei Wan Di Zhang Kun Gai Hao Chen Xihui Liu VGen 65 0 0 30 Apr 2025
Chain-of-Modality: Learning Manipulation Programs from Multimodal Human Videos with Vision-Language-Models Chen Wang Fei Xia Wenhao Yu Tingnan Zhang Ruohan Zhang Ce Liu Li Fei-Fei Jie Tan Jacky Liang 33 0 0 17 Apr 2025
A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation Rongtao Xu J. Zhang Minghao Guo Youpeng Wen H. Yang ... Liqiong Wang Yuxuan Kuang Meng Cao Feng Zheng Xiaodan Liang 47 3 0 17 Apr 2025
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model Jiaming Liu Hao Chen Pengju An Zhuoyang Liu Renrui Zhang ... Chengkai Hou Mengdi Zhao KC alex Zhou Pheng-Ann Heng S. Zhang 72 8 0 13 Mar 2025
PhysVLM: Enabling Visual Language Models to Understand Robotic Physical Reachability Weijie Zhou Manli Tao Chaoyang Zhao Haiyun Guo Honghui Dong Ming Tang J. T. Wang 46 0 0 11 Mar 2025
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments Dongping Li Tielong Cai Tianci Tang Wenhao Chai Katherine Rose Driggs-Campbell Gaoang Wang LM&Ro 61 0 0 11 Mar 2025
Generative Artificial Intelligence in Robotic Manipulation: A Survey Anton van den Hengel Peng Yun Jun Cen Junhao Cai DiDi Zhu ... Qifeng Chen Jia Pan Wei Zhang Bo Yang Hua Chen 59 1 0 05 Mar 2025
FUNCTO: Function-Centric One-Shot Imitation Learning for Tool Manipulation Chao Tang Anxing Xiao Yuhong Deng Tianrun Hu Wenlong Dong Hanbo Zhang David Hsu Hong Zhang 73 2 0 24 Feb 2025
A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards Shivansh Patel Xinchen Yin Wenlong Huang Shubham Garg H. Nayyeri Li Fei-Fei Svetlana Lazebnik Yongqian Li 92 0 0 12 Feb 2025
Imit Diff: Semantics Guided Diffusion Transformer with Dual Resolution Fusion for Imitation Learning Yuhang Dong Haizhou Ge Yupei Zeng Jingyang Zhang Beiwen Tian ... Yufei Jia Ruixiang Wang Ran Yi Guyue Zhou Longhua Ma 56 0 0 11 Feb 2025
RoboMatrix: A Skill-centric Hierarchical Framework for Scalable Robot Task Planning and Execution in Open-World Weixin Mao Weiheng Zhong Zhou Jiang Dong Fang Zhongyue Zhang ... Fan Jia Tiancai Wang Haoqiang Fan Osamu Yoshie Osamu Yoshie 119 4 0 29 Nov 2024
GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding Yawen Shao Wei-dong Zhai Yuhang Yang Hongchen Luo Yang Cao Zheng-jun Zha 98 1 0 29 Nov 2024
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics Chan Hee Song Valts Blukis Jonathan Tremblay Stephen Tyree Yu-Chuan Su Stan Birchfield 96 5 0 25 Nov 2024
Open-World Task and Motion Planning via Vision-Language Model Inferred Constraints Nishanth Kumar F. Ramos Dieter Fox Caelan Reed Garrett Tomás Lozano-Pérez Leslie Pack Kaelbling Caelan Reed Garrett LRM LM&Ro 68 3 0 13 Nov 2024
SPOT: SE(3) Pose Trajectory Diffusion for Object-Centric Manipulation Cheng-Chun Hsu Bowen Wen Jie Xu Yashraj S. Narang Xiaolong Wang Yuke Zhu Joydeep Biswas Stan Birchfield DiffM 41 8 0 01 Nov 2024
VisualPredicator: Learning Abstract World Models with Neuro-Symbolic Predicates for Robot Planning Yichao Liang Nishanth Kumar Hao Tang Adrian Weller J. Tenenbaum Tom Silver Joao Henriques Kevin Ellis 45 8 0 30 Oct 2024
Semantically Safe Robot Manipulation: From Semantic Scene Understanding to Motion Safeguards Lukas Brunke Yanni Zhang Ralf Romer Jack Naimer Nikola Staykov Siqi Zhou Angela P. Schoellig 59 4 0 19 Oct 2024
The State of Robot Motion Generation Kostas E. Bekris Joe Doerr Patrick Meng Sumanth Tangirala 3DV 36 2 0 16 Oct 2024
In-Context Learning Enables Robot Action Prediction in LLMs Yida Yin Zekai Wang Yuvan Sharma Dantong Niu Trevor Darrell Roei Herzig LM&Ro 114 1 0 16 Oct 2024
AlignBot: Aligning VLM-powered Customized Task Planning with User Reminders Through Fine-Tuning for Household Robots Zhaxizhuoma Pengan Chen Ziniu Wu Jiawei Sun Dong Wang Peng Zhou Nieqing Cao Yan Ding Bin Zhao Xuelong Li 46 4 0 18 Sep 2024
General-purpose Clothes Manipulation with Semantic Keypoints Yuhong Deng David Hsu 62 2 0 15 Aug 2024
Affordance-Guided Reinforcement Learning via Visual Prompting Olivia Y. Lee Annie Xie Kuan Fang Karl Pertsch Chelsea Finn OffRL LM&Ro 74 7 0 14 Jul 2024
RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics Wentao Yuan Jiafei Duan Valts Blukis Wilbert Pumacay Ranjay Krishna Adithyavairavan Murali Arsalan Mousavian Dieter Fox LM&Ro 50 49 0 15 Jun 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 82 42 0 23 May 2024
DoughNet: A Visual Predictive Model for Topological Manipulation of Deformable Objects Dominik Bauer Zhenjia Xu Shuran Song AI4CE 60 6 0 18 Apr 2024
BootsTAP: Bootstrapped Training for Tracking-Any-Point Carl Doersch Pauline Luc Yi Yang Dilara Gokay Skanda Koppula ... Joseph Heyward Ignacio Rocco Ross Goroshin João Carreira Andrew Zisserman 42 39 0 01 Feb 2024
Visuomotor Control in Multi-Object Scenes Using Object-Aware Representations Negin Heravi Ayzaan Wahid Corey Lynch Peter R. Florence Travis Armstrong Jonathan Tompson P. Sermanet Jeannette Bohg Debidatta Dwibedi SSL 59 14 0 12 May 2022
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 317 5,785 0 29 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,781 0 24 Feb 2021
A Compositional Object-Based Approach to Learning Physical Dynamics Michael Chang T. Ullman Antonio Torralba J. Tenenbaum AI4CE OCL 241 438 0 01 Dec 2016
Interaction Networks for Learning about Objects, Relations and Physics Peter W. Battaglia Razvan Pascanu Matthew Lai Danilo Jimenez Rezende Koray Kavukcuoglu AI4CE OCL PINN GNN 280 1,400 0 01 Dec 2016