Title
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks W. Zhang Mengna Wang Gangao Liu Xu Huixin Yiwei Jiang ... Hang Zhang Xin Li Weiming Lu Peng Li Y. Zhuang LM&Ro LRM 65 3 0 27 Mar 2025
Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression Junjie Wen Minjie Zhu Y. X. Zhu Zhibin Tang Jinming Li ... Chengmeng Li Xiaoyu Liu Yaxin Peng Chaomin Shen Feifei Feng 88 15 0 04 Dec 2024
Skill Generalization with Verbs Rachel Ma Lyndon Lam Benjamin A. Spiegel Aditya Ganeshan Roma Patel Ben Abbatematteo D. Paulius Stefanie Tellex G. Konidaris LM&Ro 68 2 0 18 Oct 2024
Discrete Policy: Learning Disentangled Action Space for Multi-Task Robotic Manipulation Kun Wu Yichen Zhu Jinming Li Junjie Wen Ning Liu Zhiyuan Xu Qinru Qiu 42 4 0 27 Sep 2024
TinyVLA: Towards Fast, Data-Efficient Vision-Language-Action Models for Robotic Manipulation Junjie Wen Y. X. Zhu Jinming Li Minjie Zhu Kun Wu ... Ran Cheng Chaomin Shen Yaxin Peng Feifei Feng Jian Tang LM&Ro 72 41 0 19 Sep 2024
LLaVA-Phi: Efficient Multi-Modal Assistant with Small Language Model Yichen Zhu Minjie Zhu Ning Liu Zhicai Ou Xiaofeng Mou Jian Tang 71 91 0 04 Jan 2024
Make A Long Image Short: Adaptive Token Length for Vision Transformers Yuqin Zhu Yichen Zhu ViT 66 17 0 05 Jul 2023
Vision-Language Models as Success Detectors Yuqing Du Ksenia Konyushkova Misha Denil A. Raju Jessica Landon Felix Hill Nando de Freitas Serkan Cabi MLLM LRM 89 77 0 13 Mar 2023
Open-World Object Manipulation using Pre-trained Vision-Language Models Austin Stone Ted Xiao Yao Lu K. Gopalakrishnan Kuang-Huei Lee ... Sean Kirmani Brianna Zitkovich F. Xia Chelsea Finn Karol Hausman LM&Ro 144 144 0 02 Mar 2023
Visual Language Maps for Robot Navigation Chen Huang Oier Mees Andy Zeng Wolfram Burgard LM&Ro 156 343 0 11 Oct 2022
Open-vocabulary Queryable Scene Representations for Real World Planning Boyuan Chen F. Xia Brian Ichter Kanishka Rao K. Gopalakrishnan Michael S. Ryoo Austin Stone Daniel Kappler LM&Ro 146 181 0 20 Sep 2022
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation Mohit Shridhar Lucas Manuelli D. Fox LM&Ro 161 456 0 12 Sep 2022
Large Language Models are Zero-Shot Reasoners Takeshi Kojima S. Gu Machel Reid Yutaka Matsuo Yusuke Iwasawa ReLM LRM 310 4,097 0 24 May 2022
Visuomotor Control in Multi-Object Scenes Using Object-Aware Representations Negin Heravi Ayzaan Wahid Corey Lynch Peter R. Florence Travis Armstrong Jonathan Tompson P. Sermanet Jeannette Bohg Debidatta Dwibedi SSL 59 14 0 12 May 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 313 11,915 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 358 8,457 0 28 Jan 2022
LGD: Label-guided Self-distillation for Object Detection Peizhen Zhang Zijian Kang Tong Yang X. Zhang N. Zheng Jian-jun Sun ObjD 101 30 0 23 Sep 2021