Title
The Latent Space Hypothesis: Toward Universal Medical Representation Learning Salil Patel 76 0 0 04 Jun 2025
Learning Generalizable Robot Policy with Human Demonstration Video as a Prompt Xiang Zhu Yichen Liu Hezhong Li Jianyu Chen 88 0 0 27 May 2025
Learning Unified Force and Position Control for Legged Loco-Manipulation Peiyuan Zhi Peiyang Li Jianqin Yin Baoxiong Jia Siyuan Huang 74 1 0 27 May 2025
What Can RL Bring to VLA Generalization? An Empirical Study Jijia Liu Feng Gao Bingwen Wei Xinlei Chen Qingmin Liao Yi Wu Chao Yu Yu Wang OffRL 188 0 0 26 May 2025
Genie Centurion: Accelerating Scalable Real-World Robot Training with Human Rewind-and-Refine Guidance Wenhao Wang Jianheng Song Chiming Liu Jiayao Ma Siyuan Feng ... Modi Shi Xindong He Guanghui Ren Yang Yang Maoqing Yao OffRL 40 0 0 24 May 2025
VLA-RL: Towards Masterful and General Robotic Manipulation with Scalable Reinforcement Learning Guanxing Lu Wenkai Guo Chubin Zhang Yuheng Zhou Haonan Jiang Zifeng Gao Yansong Tang Ziwei Wang OffRL 75 0 0 24 May 2025
Diagnosing Vision Language Models' Perception by Leveraging Human Methods for Color Vision Deficiencies Kazuki Hayashi Shintaro Ozaki Yusuke Sakai Hidetaka Kamigaito Taro Watanabe 34 0 0 23 May 2025
Rethinking Agent Design: From Top-Down Workflows to Bottom-Up Skill Evolution Jiawei Du Jinlong Wu Yuzheng Chen Yucheng Hu Bing Li Joey Tianyi Zhou 181 0 0 23 May 2025
Large Language Models Implicitly Learn to See and Hear Just By Reading Prateek Verma Mert Pilanci 131 0 0 20 May 2025
Domain Adaptation of VLM for Soccer Video Understanding Tiancheng Jiang Henry Wang Md Sirajus Salekin Parmida Atighehchian Shinan Zhang VLM 59 0 0 20 May 2025
Policy Contrastive Decoding for Robotic Foundation Models Shihan Wu Ji Zhang Xu Luo Junlin Xie Jingkuan Song Heng Tao Shen Lianli Gao OffRL 181 0 0 19 May 2025
GraspMolmo: Generalizable Task-Oriented Grasping via Large-Scale Synthetic Data Generation Abhay Deshpande Yuquan Deng Arijit Ray Jordi Salvador Winson Han Jiafei Duan Kuo-Hao Zeng Yuke Zhu Ranjay Krishna Rose Hendrix 66 0 0 19 May 2025
Real-Time Verification of Embodied Reasoning for Generative Skill Acquisition Bo Yue Shuqi Guo Kaiyu Hu Chujiao Wang Benyou Wang Kui Jia Guiliang Liu LRM 75 0 0 16 May 2025
GRoQ-LoCO: Generalist and Robot-agnostic Quadruped Locomotion Control using Offline Datasets Narayanan PP Sarvesh Prasanth Venkatesan Srinivas Kantha Reddy Shishir Kolathaya OffRL 48 0 0 16 May 2025
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation Yifu Yuan Haiqin Cui Yibin Chen Zibin Dong Fei Ni Longxin Kou Jinyi Liu Pengyi Li Yan Zheng Jianye Hao 86 0 0 13 May 2025
ReinboT: Amplifying Robot Visual-Language Manipulation with Reinforcement Learning Hongyin Zhang Zifeng Zhuang Han Zhao Pengxiang Ding Hongchao Lu Donglin Wang OffRL 99 0 0 12 May 2025
UniVLA: Learning to Act Anywhere with Task-centric Latent Actions Qingwen Bu Yanting Yang Jisong Cai Shenyuan Gao Guanghui Ren Maoqing Yao Ping Luo Hongyang Li 314 6 0 09 May 2025
ReLI: A Language-Agnostic Approach to Human-Robot Interaction Linus Nwankwo Bjoern Ellensohn Ozan Özdenizci Elmar Rueckert LM&Ro 152 0 0 03 May 2025
ViSA-Flow: Accelerating Robot Skill Learning via Large-Scale Video Semantic Action Flow Changhe Chen Quantao Yang Xiaohao Xu Nima Fazeli Olov Andersson 70 0 0 02 May 2025
Robotic Visual Instruction Yuchen Li Ziyang Gong Haoyang Li Xiaoqi Huang Haolan Kang Guangping Bai Xianzheng Ma LM&Ro 112 1 0 01 May 2025
A0: An Affordance-Aware Hierarchical Model for General Robotic Manipulation Rongtao Xu Junxuan Zhang Minghao Guo Youpeng Wen H. Yang ... Liqiong Wang Yuxuan Kuang Meng Cao Feng Zheng Xiaodan Liang 95 4 0 17 Apr 2025
Crossing the Human-Robot Embodiment Gap with Sim-to-Real RL using One Human Demonstration Tyler Ga Wei Lum Olivia Y. Lee C. Karen Liu Jeannette Bohg 77 1 0 17 Apr 2025
ViTaMIn: Learning Contact-Rich Tasks Through Robot-Free Visuo-Tactile Manipulation Interface Fangchen Liu Chuanyu Li Yihua Qin Ankit Shaw Jinfeng Xu Pieter Abbeel Rui Chen 102 5 0 08 Apr 2025
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks Weinan Zhang Mengna Wang Gangao Liu Xu Huixin Yiwei Jiang ... Hang Zhang Xin Li Weiming Lu Peng Li Yueting Zhuang LM&Ro LRM 128 7 0 27 Mar 2025
MoLe-VLA: Dynamic Layer-skipping Vision Language Action Model via Mixture-of-Layers for Efficient Robot Manipulation Rongyu Zhang Menghang Dong Yuan Zhang Liang Heng Xiaowei Chi Gaole Dai Li Du Dan Wang Yuan Du MoE 124 1 0 26 Mar 2025
TokenHSI: Unified Synthesis of Physical Human-Scene Interactions through Task Tokenization Liang Pan Zeshi Yang Zhiyang Dou Wenjia Wang Buzhen Huang Bo Dai Taku Komura Jingbo Wang 95 4 0 25 Mar 2025
Efficient Continual Adaptation of Pretrained Robotic Policy with Online Meta-Learned Adapters Ruiqi Zhu Endong Sun Guanhe Huang Oya Celiktutan CLL OnRL 110 0 0 24 Mar 2025
GR00T N1: An Open Foundation Model for Generalist Humanoid Robots Nvidia Johan Bjorck Fernando Castañeda Nikita Cherniadev Xingye Da ... Ao Zhang Hao Zhang Yizhou Zhao Ruijie Zheng Yuke Zhu VLM 124 48 0 18 Mar 2025
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning Nvidia A. Azzolini Junjie Bai Prithvijit Chattopadhyay Huayu Chen ... Xiaodong Yang Zhuolin Yang Jing Zhang Xiaohui Zeng Zhe Zhang AI4CE LM&Ro LRM 135 10 0 18 Mar 2025
Being-0: A Humanoid Robotic Agent with Vision-Language Models and Modular Skills Haoqi Yuan Yu Bai Yuhui Fu Bohan Zhou Yicheng Feng Xinrun Xu Yi Zhan Börje F. Karlsson Zongqing Lu LM&Ro 144 0 0 16 Mar 2025
Is Your Imitation Learning Policy Better than Mine? Policy Comparison with Near-Optimal Stopping David Snyder Asher Hancock Apurva Badithela Emma Dixon Patrick Miller Rares Andrei Ambrus Anirudha Majumdar Masha Itkina Haruki Nishimura OffRL 135 1 0 14 Mar 2025
Masked Sensory-Temporal Attention for Sensor Generalization in Quadruped Locomotion Dikai Liu Tianwei Zhang Jianxiong Yin Simon See 182 1 0 13 Mar 2025
HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model Jiaming Liu Hao Chen Pengju An Zhuoyang Liu Renrui Zhang ... Chengkai Hou Mengdi Zhao KC alex Zhou Pheng-Ann Heng Shanghang Zhang 120 16 0 13 Mar 2025
EMMOE: A Comprehensive Benchmark for Embodied Mobile Manipulation in Open Environments Dongping Li Tielong Cai Tianci Tang Wenhao Chai Katherine Rose Driggs-Campbell Gaoang Wang LM&Ro 153 0 0 11 Mar 2025
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning Xin Wen Bingchen Zhao Yilun Chen Jiangmiao Pang Xiaojuan Qi LM&Ro 150 0 0 10 Mar 2025
MatchMaker: Automated Asset Generation for Robotic Assembly Yian Wang Bingjie Tang Chuang Gan Dieter Fox Kaichun Mo Yashraj S. Narang Iretiayo Akinola 87 0 0 07 Mar 2025
Generative Artificial Intelligence in Robotic Manipulation: A Survey Kun Zhang Peng Yun Jun Cen Junhao Cai DiDi Zhu ... Qifeng Chen Jia Pan Wei Zhang Bo Yang Hua Chen 130 1 0 05 Mar 2025
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction Huang Huang Fangchen Liu Letian Fu Tingfan Wu Mustafa Mukadam Jitendra Malik Ken Goldberg Pieter Abbeel LM&Ro VLM 127 9 0 05 Mar 2025
Teaching Metric Distance to Autoregressive Multimodal Foundational Models Jiwan Chung Saejin Kim Yongrae Jo Jinho Park Dongjun Min Youngjae Yu 176 0 0 04 Mar 2025
ArticuBot: Learning Universal Articulated Object Manipulation Policy via Large Scale Simulation Yufei Wang Ziyu Wang Mino Nakura Pratik Bhowal Chia-Liang Kuo Yi-Ting Chen Zackory M. Erickson David Held 112 0 0 04 Mar 2025
An Expert Ensemble for Detecting Anomalous Scenes, Interactions, and Behaviors in Autonomous Driving Tianchen Ji Neeloy Chakraborty Andre Schreiber Katherine Rose Driggs-Campbell 462 1 0 23 Feb 2025
UNION: Unsupervised 3D Object Detection using Object Appearance-based Pseudo-Classes T. Lentsch Holger Caesar D. Gavrila 3DPC 122 8 0 20 Feb 2025
Pre-training Auto-regressive Robotic Models with 4D Representations Dantong Niu Yuvan Sharma Haoru Xue Giscard Biamby Junyi Zhang Ziteng Ji Trevor Darrell Roei Herzig 121 1 0 18 Feb 2025
A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards Shivansh Patel Xinchen Yin Wenlong Huang Shubham Garg H. Nayyeri Li Fei-Fei Svetlana Lazebnik Yongqian Li 124 1 0 12 Feb 2025
DexVLA: Vision-Language Model with Plug-In Diffusion Expert for General Robot Control Junjie Wen Yinlin Zhu Jinming Li Zhibin Tang Yaxin Peng Feifei Feng VLM 93 21 0 09 Feb 2025
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation Yi Li Yuquan Deng Jing Zhang Joel Jang Marius Memme ... Fabio Ramos Dieter Fox Anqi Li Abhishek Gupta Ankit Goyal LM&Ro 133 14 0 08 Feb 2025
Temporal Representation Alignment: Successor Features Enable Emergent Compositionality in Robot Instruction Following Vivek Myers Bill Chunyuan Zheng Anca Dragan Kuan Fang Sergey Levine 136 0 0 08 Feb 2025
ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy Yuhui Chen Shuai Tian Shugao Liu Yingting Zhou Haoran Li Dongbin Zhao OffRL 152 7 0 08 Feb 2025
MuST: Multi-Head Skill Transformer for Long-Horizon Dexterous Manipulation with Skill Progress Kai Gao Fan Wang Erica Aduh Dylan Randle Jane Shi 108 0 0 04 Feb 2025
Strengthening Generative Robot Policies through Predictive World Modeling Han Qi Haocheng Yin Aris Zhu Yilun Du Heng Yang 121 3 0 02 Feb 2025