Title
VTLA: Vision-Tactile-Language-Action Model with Preference Learning for Insertion Manipulation Chaofan Zhang Peng Hao Xiaoge Cao Xiaoshuai Hao Shaowei Cui Shuo Wang 29 0 0 14 May 2025
RoboOS: A Hierarchical Embodied Framework for Cross-Embodiment and Multi-Agent Collaboration Huajie Tan Xiaoshuai Hao Minglan Lin Pengwei Wang Yaoxu Lyu Mingyu Cao Zhongyuan Wang S. Zhang LM&Ro 48 0 0 06 May 2025
Generative Artificial Intelligence in Robotic Manipulation: A Survey Kun Zhang Peng Yun Jun Cen Junhao Cai DiDi Zhu ... Qifeng Chen Jia Pan Wei K. Zhang Bo Yang Hua Chen 59 1 0 05 Mar 2025
RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete Yuheng Ji Huajie Tan Jiayu Shi Xiaoshuai Hao Yuan Zhang ... Huaihai Lyu Xiaolong Zheng Jiaming Liu Zhongyuan Wang Shanghang Zhang 91 7 0 28 Feb 2025
Learn from the Past: Language-conditioned Object Rearrangement with Large Language Models Guanqun Cao Ryan Mckenna Erich Graf John Oyekan LM&Ro 116 0 0 30 Jan 2025
DrEureka: Language Model Guided Sim-To-Real Transfer Yecheng Jason Ma William Liang Hung-Ju Wang Sam Wang Yuke Zhu Linxi Fan Osbert Bastani Dinesh Jayaraman 77 41 0 04 Jun 2024
URDFormer: A Pipeline for Constructing Articulated Simulation Environments from Real-World Images Zoey Chen Aaron Walsman Marius Memmel Kaichun Mo Alex Fang Karthikeya Vemuri Alan Wu Dieter Fox Abhishek Gupta AI4CE VGen 56 26 0 19 May 2024
3D-VLA: A 3D Vision-Language-Action Generative World Model Haoyu Zhen Xiaowen Qiu Peihao Chen Jincheng Yang Xin Yan Yilun Du Yining Hong Chuang Gan LM&Ro VGen PINN 36 89 0 14 Mar 2024
Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning Yingdong Hu Fanqi Lin Tong Zhang Li Yi Yang Gao LM&Ro 85 101 0 29 Nov 2023
MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations Ajay Mandlekar Soroush Nasiriany Bowen Wen Iretiayo Akinola Yashraj S. Narang Linxi Fan Yuke Zhu Dieter Fox LM&Ro 82 99 0 26 Oct 2023
Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance Jesse Zhang Jiahui Zhang Karl Pertsch Ziyi Liu Xiang Ren Minsuk Chang Shao-Hua Sun Joseph J. Lim LLMAG LM&Ro 97 60 0 16 Oct 2023
Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions Yevgen Chebotar Q. Vuong A. Irpan Karol Hausman F. Xia ... Brianna Zitkovich Tomas Jackson Kanishka Rao Chelsea Finn Sergey Levine OffRL 123 81 0 18 Sep 2023
Large Language Models as Zero-Shot Human Models for Human-Robot Interaction Bowen Zhang Harold Soh LLMAG LM&Ro 72 40 0 06 Mar 2023
PI-QT-Opt: Predictive Information Improves Multi-Task Robotic Reinforcement Learning at Scale Kuang-Huei Lee Ted Xiao A. Li Paul Wohlhart Ian S. Fischer Yao Lu 45 10 0 15 Oct 2022
CLIP-Fields: Weakly Supervised Semantic Fields for Robotic Memory Nur Muhammad (Mahi) Shafiullah Chris Paxton Lerrel Pinto Soumith Chintala Arthur Szlam VLM LM&Ro CLIP 95 156 0 11 Oct 2022
Real-World Robot Learning with Masked Visual Pre-training Ilija Radosavovic Tete Xiao Stephen James Pieter Abbeel Jitendra Malik Trevor Darrell SSL 156 239 0 06 Oct 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 237 2,479 0 06 Oct 2022
DALL-E-Bot: Introducing Web-Scale Diffusion Models to Robotics Ivan Kapelyukh Vitalis Vosylius Edward Johns LM&Ro DiffM 110 144 0 05 Oct 2022
End-to-End Affordance Learning for Robotic Manipulation Yiran Geng Boshi An Haoran Geng Yuanpei Chen Yaodong Yang Hao Dong 68 59 0 26 Sep 2022
Hybrid Learning- and Model-Based Planning and Control of In-Hand Manipulation Rana Soltani-Zarrin K. Yamane Rianna M. Jitosho 46 7 0 20 Sep 2022
Open-vocabulary Queryable Scene Representations for Real World Planning Boyuan Chen F. Xia Brian Ichter Kanishka Rao K. Gopalakrishnan Michael S. Ryoo Austin Stone Daniel Kappler LM&Ro 146 181 0 20 Sep 2022
DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for Open-world Detection Lewei Yao Jianhua Han Youpeng Wen Xiaodan Liang Dan Xu Wei Zhang Zhenguo Li Chunjing Xu Hang Xu CLIP VLM 115 152 0 20 Sep 2022
PointCLIP: Point Cloud Understanding by CLIP Renrui Zhang Ziyu Guo Wei Zhang Kunchang Li Xupeng Miao Bin Cui Yu Qiao Peng Gao Hongsheng Li VLM 3DPC 169 435 0 04 Dec 2021
Masked Autoencoders Are Scalable Vision Learners Kaiming He Xinlei Chen Saining Xie Yanghao Li Piotr Dollár Ross B. Girshick ViT TPM 305 7,434 0 11 Nov 2021
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 226 1,018 0 13 Oct 2021
iGibson 2.0: Object-Centric Simulation for Robot Learning of Everyday Household Tasks Chengshu Li Fei Xia Roberto Martín-Martín Michael Lingelbach S. Srivastava ... Karen Liu H. Gweon Jiajun Wu Li Fei-Fei Silvio Savarese LM&Ro 156 221 0 06 Aug 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 314 5,775 0 29 Apr 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Tsung-Yi Lin Weicheng Kuo Yin Cui VLM ObjD 225 898 0 28 Apr 2021
Reset-Free Reinforcement Learning via Multi-Task Learning: Learning Dexterous Manipulation Behaviors without Human Intervention Abhishek Gupta Justin Yu Tony Zhao Vikash Kumar Aaron Rovinsky Kelvin Xu Thomas Devlin Sergey Levine OffRL 69 94 0 22 Apr 2021
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,777 0 24 Feb 2021