GraspMolmo: Generalizable Task-Oriented Grasping via Large-Scale Synthetic Data Generation

19 May 2025

Papers citing "GraspMolmo: Generalizable Task-Oriented Grasping via Large-Scale Synthetic Data Generation"

38 / 38 papers shown

Title
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots Nvidia Johan Bjorck Fernando Castañeda Nikita Cherniadev Xingye Da ... Ao Zhang Hao Zhang Yizhou Zhao Ruijie Zheng Yuke Zhu VLM 124 48 0 18 Mar 2025
RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics Chan Hee Song Valts Blukis Jonathan Tremblay Stephen Tyree Yu-Chuan Su Stan Birchfield 146 14 0 25 Nov 2024
AHA: A Vision-Language-Model for Detecting and Reasoning Over Failures in Robotic Manipulation Jiafei Duan Wilbert Pumacay Nishanth Kumar Yi Ru Wang Shulin Tian Wentao Yuan Ranjay Krishna Dieter Fox Ajay Mandlekar Yijie Guo VLM LRM 90 27 0 01 Oct 2024
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Multimodal Models Matt Deitke Christopher Clark Sangho Lee Rohun Tripathi Yue Yang ... Noah A. Smith Hannaneh Hajishirzi Ross Girshick Ali Farhadi Aniruddha Kembhavi OSLM VLM 68 14 0 25 Sep 2024
RTAGrasp: Learning Task-Oriented Grasping from Human Videos via Retrieval, Transfer, and Alignment Wenlong Dong Dehao Huang Jiangshan Liu Chao Tang Hong Zhang 65 3 0 24 Sep 2024
ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation Wenlong Huang Chen Wang Yongqian Li Ruohan Zhang Li Fei-Fei 99 106 0 03 Sep 2024
Target-Oriented Object Grasping via Multimodal Human Guidance Pengwei Xie Siang Chen Dingchang Hu Yixiang Dai Kaiqin Yang Guijin Wang 78 3 0 20 Aug 2024
SAM 2: Segment Anything in Images and Videos Nikhila Ravi Valentin Gabeur Yuan-Ting Hu Ronghang Hu Chaitanya K. Ryali ... Nicolas Carion Chao-Yuan Wu Ross B. Girshick Piotr Dollár Christoph Feichtenhofer VLM MLLM 100 859 0 01 Aug 2024
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy Xiang Li Cristina Mata J. Park Kumara Kahatapitiya Yoo Sung Jang ... Kanchana Ranasinghe R. Burgert Mu Cai Yong Jae Lee Michael S. Ryoo LM&Ro 99 28 0 28 Jun 2024
PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators Kuo-Hao Zeng Zichen Zhang Kiana Ehsani Rose Hendrix Jordi Salvador Alvaro Herrasti Ross Girshick Aniruddha Kembhavi Luca Weihs LM&Ro OffRL 62 22 0 28 Jun 2024
RoboPoint: A Vision-Language Model for Spatial Affordance Prediction for Robotics Wentao Yuan Jiafei Duan Valts Blukis Wilbert Pumacay Ranjay Krishna Adithyavairavan Murali Arsalan Mousavian Dieter Fox LM&Ro 73 58 0 15 Jun 2024
OpenVLA: An Open-Source Vision-Language-Action Model Moo Jin Kim Karl Pertsch Siddharth Karamcheti Ted Xiao Ashwin Balakrishna ... Russ Tedrake Dorsa Sadigh Sergey Levine Percy Liang Chelsea Finn LM&Ro VLM 199 464 0 13 Jun 2024
FoundationGrasp: Generalizable Task-Oriented Grasping with Foundation Models Chao Tang Dehao Huang Wenlong Dong Ruinian Xu Hong Zhang 73 13 0 16 Apr 2024
CoPa: General Robotic Manipulation through Spatial Constraints of Parts with Foundation Models Haoxu Huang Fanqi Lin Yingdong Hu Shengjie Wang Yang Gao 84 55 0 13 Mar 2024
Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter Georgios Tziafas Yucheng Xu Arushi Goel Mohammadreza Kasaei Zhibin Li Hamidreza Kasaei 73 26 0 09 Nov 2023
M2T2: Multi-Task Masked Transformer for Object-centric Pick and Place Wentao Yuan Adithyavairavan Murali Arsalan Mousavian Dieter Fox 73 21 0 02 Nov 2023
What do we learn from a large-scale study of pre-trained visual representations in sim and real environments? Sneha Silwal Karmesh Yadav Tingfan Wu Jay Vakil Arjun Majumdar ... Dhruv Batra Aravind Rajeswaran Mrinal Kalakrishnan Franziska Meier Oleksandr Maksymets SSL LM&Ro 81 7 0 03 Oct 2023
Language Embedded Radiance Fields for Zero-Shot Task-Oriented Grasping Adam Rashid Satvik Sharma Chung Min Kim Justin Kerr Lawrence Yunliang Chen Angjoo Kanazawa Ken Goldberg 79 90 0 14 Sep 2023
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control Anthony Brohan Noah Brown Justice Carbajal Yevgen Chebotar Xi Chen ... Ted Xiao Peng Xu Sichun Xu Tianhe Yu Brianna Zitkovich LM&Ro LRM 108 1,217 0 28 Jul 2023
GraspGPT: Leveraging Semantic Knowledge from a Large Language Model for Task-Oriented Grasping Chao Tang Dehao Huang Wenqiang Ge Weiyu Liu Hong Zhang 64 71 0 25 Jul 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 429 4,678 0 17 Apr 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.2K 14,179 0 15 Mar 2023
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Shilong Liu Zhaoyang Zeng Tianhe Ren Feng Li Hao Zhang ... Chun-yue Li Jianwei Yang Hang Su Jun Zhu Lei Zhang ObjD 170 1,957 0 09 Mar 2023
Task-Oriented Grasp Prediction with Visual-Language Inputs Chao Tang Dehao Huang Lingxiao Meng Weiyu Liu Hong Zhang 38 35 0 28 Feb 2023
StructFormer: Learning Spatial Structure for Language-Guided Semantic Rearrangement of Novel Objects Weiyu Liu Chris Paxton Tucker Hermans Dieter Fox 65 92 0 19 Oct 2021
CLIPort: What and Where Pathways for Robotic Manipulation Mohit Shridhar Lucas Manuelli Dieter Fox LM&Ro 98 648 0 24 Sep 2021
Synergies Between Affordance and Geometry: 6-DoF Grasp Detection via Implicit Representations Zhenyu Jiang Yifeng Zhu Maxwell Svetlik Kuan Fang Yuke Zhu 63 139 0 04 Apr 2021
Contact-GraspNet: Efficient 6-DoF Grasp Generation in Cluttered Scenes M. Sundermeyer Arsalan Mousavian Rudolph Triebel Dieter Fox 3DPC 58 360 0 25 Mar 2021
Where2Act: From Pixels to Actions for Articulated 3D Objects Kaichun Mo Leonidas Guibas Mustafa Mukadam Abhinav Gupta Shubham Tulsiani 188 184 0 07 Jan 2021
ACRONYM: A Large-Scale Grasp Dataset Based on Simulation Clemens Eppner Arsalan Mousavian Dieter Fox 78 210 0 18 Nov 2020
Same Object, Different Grasps: Data and Semantic Knowledge for Task-Oriented Grasping Adithyavairavan Murali Weiyu Liu Kenneth Marino Sonia Chernova Abhinav Gupta 49 61 0 12 Nov 2020
DeepGMR: Learning Latent Gaussian Mixture Models for Registration Wentao Yuan Benjamin Eckart Kihwan Kim Varun Jampani Dieter Fox Jan Kautz 3DPC 51 222 0 20 Aug 2020
KETO: Learning Keypoint Representations for Tool Manipulation Zengyi Qin Kuan Fang Yuke Zhu Li Fei-Fei Silvio Savarese 3DPC 78 107 0 26 Oct 2019
kPAM: KeyPoint Affordances for Category-Level Robotic Manipulation Lucas Manuelli Wei Gao Peter R. Florence Russ Tedrake 97 254 0 15 Mar 2019
Learning Task-Oriented Grasping for Tool Manipulation from Simulated Self-Supervision Kuan Fang Yuke Zhu Animesh Garg Andrey Kurenkov Viraj Mehta Li Fei-Fei Silvio Savarese 55 214 0 25 Jun 2018
Dense Object Nets: Learning Dense Visual Object Descriptors By and For Robotic Manipulation Peter R. Florence Lucas Manuelli Russ Tedrake SSL 90 278 0 22 Jun 2018
AffordanceNet: An End-to-End Deep Learning Approach for Object Affordance Detection Thanh-Toan Do A. Nguyen Ian Reid 51 294 0 21 Sep 2017
ShapeNet: An Information-Rich 3D Model Repository Angel X. Chang Thomas Funkhouser Leonidas Guibas Pat Hanrahan Qi-Xing Huang ... Shuran Song Hao Su Jianxiong Xiao L. Yi Feng Yu 3DV 138 5,508 0 09 Dec 2015