v1v2v3 (latest)

Robotic Control via Embodied Chain-of-Thought Reasoning

11 July 2024

Michał Zawalski

Sergey Levine

Papers citing "Robotic Control via Embodied Chain-of-Thought Reasoning"

50 / 60 papers shown

Title
HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models Trishna Chakraborty Udita Ghosh Xiaopan Zhang Fahim Faisal Niloy Yue Dong Jiachen Li Amit K. Roy-Chowdhury Chengyu Song LLMAG HILM LRM 50 0 0 18 Jun 2025
CEED-VLA: Consistency Vision-Language-Action Model with Early-Exit Decoding Wenxuan Song Jiayi Chen Pengxiang Ding Yuxin Huang Han Zhao Donglin Wang Haoang Li 23 0 0 16 Jun 2025
Prompting with the Future: Open-World Model Predictive Control with Interactive Digital Twins Chuanruo Ning Kuan Fang Wei-Chiu Ma LM&Ro AI4CE 29 0 0 16 Jun 2025
Domain-Constrained Diffusion Models to Synthesize Tabular Data: A Case Study in Power Systems Milad Hoseinpour Vladimir Dvorkin DiffM MedIm 22 0 0 12 Jun 2025
Fast ECoT: Efficient Embodied Chain-of-Thought via Thoughts Reuse Zhekai Duan Yuan Zhang Shikai Geng Gaowen Liu Joschka Boedecker Chris Xiaoxuan Lu LRM 27 0 0 09 Jun 2025
Bridging Perception and Action: Spatially-Grounded Mid-Level Representations for Robot Generalization Jonathan Yang Chuyuan Fu Dhruv Shah Dorsa Sadigh Fei Xia Tingnan Zhang 48 1 0 06 Jun 2025
Revisiting Test-Time Scaling: A Survey and a Diversity-Aware Method for Efficient Reasoning Ho-Lam Chung Teng-Yun Hsiao Hsiao-Ying Huang Chunerh Cho Jian-Ren Lin Zhang Ziwei Yun-Nung Chen LRM 116 0 0 05 Jun 2025
LoHoVLA: A Unified Vision-Language-Action Model for Long-Horizon Embodied Tasks Yi Yang Jiaxuan Sun Siqi Kou Yihan Wang Zhijie Deng LM&Ro 29 0 0 31 May 2025
Visual Embodied Brain: Let Multimodal Large Language Models See, Think, and Control in Spaces Gen Luo Ganlin Yang Ziyang Gong Guanzhou Chen Haonan Duan ... Wenhai Wang Jifeng Dai Yu Qiao Rongrong Ji X. Zhu LM&Ro 39 1 0 30 May 2025
Agentic Robot: A Brain-Inspired Framework for Vision-Language-Action Models in Embodied Agents Zhejian Yang Yongchao Chen Xueyang Zhou Jiangyue Yan D. Song ... Yuting Li Yu Zhang P. Zhou Hechang Chen Lichao Sun 71 0 0 29 May 2025
Robot-R1: Reinforcement Learning for Enhanced Embodied Reasoning in Robotics Dongyoung Kim S. Park Huiwon Jang Jinwoo Shin Jaehyung Kim Younggyo Seo LRM 37 0 0 29 May 2025
Knowledge Insulating Vision-Language-Action Models: Train Fast, Run Fast, Generalize Better Danny Driess Jost Tobias Springenberg Brian Ichter Lili Yu Adrian Li-Bell ... Allen Z. Ren Homer Walke Quan Vuong Lucy Xiaoyang Shi Sergey Levine 119 2 0 29 May 2025
Reinforced Reasoning for Embodied Planning Di Wu Jiaxin Fan Junzhe Zang G. Wang Wei Yin Wenhao Li Bo Jin LRM 122 0 0 28 May 2025
ChatVLA-2: Vision-Language-Action Model with Open-World Embodied Reasoning from Pretrained Knowledge Zhongyi Zhou Yichen Zhu Junjie Wen Chaomin Shen Yi Xu LM&Ro LRM VLM 98 0 0 28 May 2025
ReFineVLA: Reasoning-Aware Teacher-Guided Transfer Fine-Tuning Tuan V. Vo T. Nguyen Khang Nguyen Duy Ho Minh Nguyen Minh Nhat Vu LRM 50 0 0 25 May 2025
WorldEval: World Model as Real-World Robot Policies Evaluator Yaxuan Li Yichen Zhu Junjie Wen Chaomin Shen Yi Xu OffRL VGen 29 0 0 25 May 2025
APEX: Empowering LLMs with Physics-Based Task Planning for Real-time Insight Wanjing Huang Weixiang Yan Zhen Zhang Ambuj Singh LRM 85 0 0 20 May 2025
Policy Contrastive Decoding for Robotic Foundation Models Shihan Wu Ji Zhang Xu Luo Junlin Xie Jingkuan Song Heng Tao Shen Lianli Gao OffRL 271 0 0 19 May 2025
OneTwoVLA: A Unified Vision-Language-Action Model with Adaptive Reasoning Fanqi Lin Ruiqian Nai Yingdong Hu Jiacheng You Junming Zhao Yang Gao LRM 99 0 0 17 May 2025
Unveiling the Potential of Vision-Language-Action Models with Open-Ended Multimodal Instructions Wei Zhao Gongsheng Li Zhefei Gong Pengxiang Ding Han Zhao Donglin Wang LM&Ro 80 0 0 16 May 2025
From Seeing to Doing: Bridging Reasoning and Decision for Robotic Manipulation Yifu Yuan Haiqin Cui Yibin Chen Zibin Dong Fei Ni Longxin Kou Jinyi Liu Pengyi Li Yan Zheng Jianye Hao 155 0 0 13 May 2025
Training Strategies for Efficient Embodied Reasoning William Chen Suneel Belkhale Suvir Mirchandani Oier Mees Danny Driess Karl Pertsch Sergey Levine OffRL LRM 97 0 0 13 May 2025
Pixel Motion as Universal Representation for Robot Control Kanchana Ranasinghe Xiang Li Cristina Mata J. Park Michael S. Ryoo VGen 81 0 0 12 May 2025
3D CAVLA: Leveraging Depth and 3D Context to Generalize Vision Language Action Models for Unseen Tasks V. Bhat Yu-Hsiang Lan Prashanth Krishnamurthy Ramesh Karri Farshad Khorrami 136 0 0 09 May 2025
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges Ranjan Sapkota Yang Cao Konstantinos I. Roumeliotis Manoj Karkee LM&Ro 407 2 0 07 May 2025
PhysNav-DG: A Novel Adaptive Framework for Robust VLM-Sensor Fusion in Navigation Applications Trisanth Srinivasan Santosh Patapati 93 0 0 03 May 2025
NORA: A Small Open-Sourced Generalist Vision Language Action Model for Embodied Tasks Chia-Yu Hung Qi Sun Pengfei Hong Amir Zadeh Chuan Li U-Xuan Tan Navonil Majumder Soujanya Poria LM&Ro 120 4 0 28 Apr 2025
Robotic Task Ambiguity Resolution via Natural Language Interaction Eugenio Chisari Jan Ole von Hartz Fabien Despinoy Abhinav Valada LM&Ro 154 0 0 24 Apr 2025
Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation Ning Wang Zihan Yan W. Li Chuan Ma H. Chen Tao Xiang AAML 161 0 0 22 Apr 2025
$$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization$ $π_{0.5}$ : a Vision-Language-Action Model with Open-World Generalization Physical Intelligence Kevin Black Noah Brown James Darpinian Karan Dhabalia ... Homer Walke Anna Walling Haohuan Wang Lili Yu Ury Zhilinsky LM&Ro VLM 137 51 0 22 Apr 2025
Towards Forceful Robotic Foundation Models: a Literature Survey William Xie N. Correll OffRL 138 4 0 16 Apr 2025
Grounding Multimodal LLMs to Embodied Agents that Ask for Help with Reinforcement Learning Ram Ramrakhya Matthew Chang Xavier Puig Ruta Desai Z. Kira Roozbeh Mottaghi LLMAG LM&Ro 121 1 0 01 Apr 2025
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models Qingqing Zhao Yao Lu Moo Jin Kim Zipeng Fu Zhuoyang Zhang ... Ankur Handa Xuan Li Donglai Xiang Gordon Wetzstein Nayeon Lee LM&Ro LRM 99 33 0 27 Mar 2025
Embodied-Reasoner: Synergizing Visual Search, Reasoning, and Action for Embodied Interactive Tasks Weinan Zhang Mengna Wang Gangao Liu Xu Huixin Yiwei Jiang ... Hang Zhang Xin Li Weiming Lu Peng Li Yueting Zhuang LM&Ro LRM 190 9 0 27 Mar 2025
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning Nvidia A. Azzolini Junjie Bai Prithvijit Chattopadhyay Huayu Chen ... Xiaodong Yang Zhuolin Yang Jing Zhang Xiaohui Zeng Zhe Zhang AI4CE LM&Ro LRM 199 12 0 18 Mar 2025
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey Yansen Wang Shengqiong Wu Yize Zhang William Yang Wang Ziwei Liu Jiebo Luo Hao Fei LRM 217 31 0 16 Mar 2025
Towards Fast, Memory-based and Data-Efficient Vision-Language Policy Haoxuan Li Sixu Yan Yongqian Li Xinggang Wang LM&Ro 128 1 0 13 Mar 2025
PointVLA: Injecting the 3D World into Vision-Language-Action Models Chengmeng Li Junjie Wen Yan Peng Chaomin Shen Feifei Feng Yinlin Zhu 3DPC 162 9 0 10 Mar 2025
iManip: Skill-Incremental Learning for Robotic Manipulation Zexin Zheng Jia-Feng Cai Xiao-Ming Wu Yi-Lin Wei Yu-Ming Tang Wei-Shi Zheng CLL 107 1 0 10 Mar 2025
SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning Borong Zhang Yuhao Zhang Yalan Qin Yingshan Lei Josef Dai Yuanpei Chen Yaodong Yang 128 4 0 05 Mar 2025
Subtask-Aware Visual Reward Learning from Segmented Demonstrations Changyeon Kim Minho Heo Doohyun Lee Jinwoo Shin Honglak Lee Joseph J. Lim Kimin Lee 79 1 0 28 Feb 2025
Hi Robot: Open-Ended Instruction Following with Hierarchical Vision-Language-Action Models Lucy Xiaoyang Shi Brian Ichter Michael Equi Liyiming Ke Karl Pertsch ... Adrian Li-Bell Danny Driess Lachy Groom Sergey Levine Chelsea Finn LM&Ro LRM 149 23 0 26 Feb 2025
ObjectVLA: End-to-End Open-World Object Manipulation Without Demonstration Minjie Zhu Yinlin Zhu Jinming Li Zhongyi Zhou Junjie Wen Xiaoyu Liu Yaxin Peng Chaomin Shen Feifei Feng LM&Ro 151 6 0 26 Feb 2025
A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards Shivansh Patel Xinchen Yin Wenlong Huang Shubham Garg H. Nayyeri Li Fei-Fei Svetlana Lazebnik Yongqian Li 183 1 0 12 Feb 2025
Towards Generalist Robot Policies: What Matters in Building Vision-Language-Action Models Xinghang Li Peiyan Li Minghuan Liu Dong Wang Jirong Liu Bingyi Kang Xiao Ma Tao Kong Hanbo Zhang Huaping Liu LM&Ro 181 25 0 18 Dec 2024
Diffusion-VLA: Generalizable and Interpretable Robot Foundation Model via Self-Generated Reasoning Junjie Wen Minjie Zhu Yinlin Zhu Zhibin Tang Jinming Li ... Chengmeng Li Xiaoyu Liu Chaomin Shen Yaxin Peng Feifei Feng 149 13 0 04 Dec 2024
CLIP-RT: Learning Language-Conditioned Robotic Policies from Natural Language Supervision Gi-Cheon Kang Junghyun Kim Kyuhwan Shim Jun Ki Lee Byoung-Tak Zhang LM&Ro 327 2 1 01 Nov 2024
GHIL-Glue: Hierarchical Control with Filtered Subgoal Images Kyle Hatch Ashwin Balakrishna Oier Mees Suraj Nair Seohong Park ... Masha Itkina Benjamin Eysenbach Sergey Levine Thomas Kollar Benjamin Burchfiel 119 4 0 26 Oct 2024
Scaling Robot Policy Learning via Zero-Shot Labeling with Foundation Models Nils Blank Moritz Reuss Marcel Rühle Ömer Erdinç Yagmurlu Fabian Wenzel Oier Mees Rudolf Lioutikov LM&Ro OffRL 68 4 0 23 Oct 2024
Just Add Force for Contact-Rich Robot Policies William Xie Stefan Caldararu N. Correll OffRL 50 0 0 17 Oct 2024