Policy Contrastive Decoding for Robotic Foundation Models

19 May 2025

Papers citing "Policy Contrastive Decoding for Robotic Foundation Models"

42 / 42 papers shown

Title
CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models Qingqing Zhao Yao Lu Moo Jin Kim Zipeng Fu Zhuoyang Zhang ... Ankur Handa Xuan Li Donglai Xiang Gordon Wetzstein Nayeon Lee LM&Ro LRM 73 25 0 27 Mar 2025
FAST: Efficient Action Tokenization for Vision-Language-Action Models Karl Pertsch Kyle Stachowicz Brian Ichter Danny Driess Suraj Nair Q. Vuong Oier Mees Chelsea Finn Sergey Levine 114 56 0 17 Jan 2025
RaVL: Discovering and Mitigating Spurious Correlations in Fine-Tuned Vision-Language Models Maya Varma Jean-Benoit Delbrouck Zhihong Chen Akshay S. Chaudhari C. Langlotz VLM 76 8 0 06 Nov 2024
RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation Songming Liu Lingxuan Wu Bangguo Li Hengkai Tan Huayu Chen Zhengyi Wang Ke Xu Hang Su Jun Zhu 106 111 0 10 Oct 2024
ConVis: Contrastive Decoding with Hallucination Visualization for Mitigating Hallucinations in Multimodal Large Language Models Yeji Park Deokyeong Lee Junsuk Choe Buru Chang MLLM VLM 79 5 0 25 Aug 2024
Robotic Control via Embodied Chain-of-Thought Reasoning Michał Zawalski William Chen Karl Pertsch Oier Mees Chelsea Finn Sergey Levine LRM LM&Ro 110 75 0 11 Jul 2024
FALIP: Visual Prompt as Foveal Attention Boosts CLIP Zero-Shot Performance Jiedong Zhuang Jiaqi Hu Lianrui Mu Rui Hu Xiaoyu Liang Jiangnan Ye Haoji Hu CLIP VLM 84 4 0 08 Jul 2024
ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data Zeyi Liu Cheng Chi Eric A. Cousineau Naveen Kuppuswamy Benjamin Burchfiel Shuran Song VGen 71 30 0 27 Jun 2024
OpenVLA: An Open-Source Vision-Language-Action Model Moo Jin Kim Karl Pertsch Siddharth Karamcheti Ted Xiao Ashwin Balakrishna ... Russ Tedrake Dorsa Sadigh Sergey Levine Percy Liang Chelsea Finn LM&Ro VLM 209 474 0 13 Jun 2024
Octo: An Open-Source Generalist Robot Policy Octo Model Team Dibya Ghosh Homer Walke Karl Pertsch Kevin Black ... Quan Vuong Ted Xiao Dorsa Sadigh Chelsea Finn Sergey Levine 163 415 0 20 May 2024
Evaluating Real-World Robot Manipulation Policies in Simulation Xuanlin Li Kyle Hsu Jiayuan Gu Karl Pertsch Oier Mees ... Jiajun Wu Chelsea Finn Hao Su Q. Vuong Ted Xiao OffRL 74 74 0 09 May 2024
A Survey on Efficient Inference for Large Language Models Zixuan Zhou Xuefei Ning Ke Hong Tianyu Fu Jiaming Xu ... Shengen Yan Guohao Dai Xiao-Ping Zhang Yuhan Dong Yu Wang 104 96 0 22 Apr 2024
Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding Xintong Wang Jingheng Pan Liang Ding Christian Biemann MLLM 60 69 0 27 Mar 2024
Multi-Modal Hallucination Control by Visual Information Grounding Alessandro Favero Luca Zancato Matthew Trager Siddharth Choudhary Pramuditha Perera Alessandro Achille Ashwin Swaminathan Stefano Soatto MLLM 114 75 0 20 Mar 2024
Contrastive Region Guidance: Improving Grounding in Vision-Language Models without Training David Wan Jaemin Cho Elias Stengel-Eskin Mohit Bansal VLM ObjD 75 34 0 04 Mar 2024
RT-H: Action Hierarchies Using Language Suneel Belkhale Tianli Ding Ted Xiao P. Sermanet Quon Vuong Jonathan Tompson Yevgen Chebotar Debidatta Dwibedi Dorsa Sadigh LM&Ro 78 85 0 04 Mar 2024
HALC: Object Hallucination Reduction via Adaptive Focal-Contrast Decoding Zhaorun Chen Zhuokai Zhao Hongyin Luo Huaxiu Yao Bo Li Jiawei Zhou MLLM 74 71 0 01 Mar 2024
Spurious Correlations in Machine Learning: A Survey Wenqian Ye Guangtao Zheng Xu Cao Yunsheng Ma Aidong Zhang OOD AAML CML 87 41 0 20 Feb 2024
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models Siddharth Karamcheti Suraj Nair Ashwin Balakrishna Percy Liang Thomas Kollar Dorsa Sadigh MLLM VLM 89 123 0 12 Feb 2024
YOLO-World: Real-Time Open-Vocabulary Object Detection Tianheng Cheng Lin Song Yixiao Ge Wenyu Liu Xinggang Wang Ying Shan VLM ObjD 69 281 0 30 Jan 2024
Foundation Models in Robotics: Applications, Challenges, and the Future Roya Firoozi Johnathan Tucker Stephen Tian Anirudha Majumdar Jiankai Sun ... Brian Ichter Danny Driess Jiajun Wu Cewu Lu Mac Schwager LM&Ro AI4CE LRM VLM 76 152 0 13 Dec 2023
Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding Sicong Leng Hang Zhang Guanzheng Chen Xin Li Shijian Lu Chunyan Miao Li Bing VLM MLLM 136 226 0 28 Nov 2023
SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation Bin Xie Jiale Cao Jin Xie Fahad Shahbaz Khan Yanwei Pang VLM 77 46 0 27 Nov 2023
A Survey of Hallucination in Large Foundation Models Vipula Rawte A. Sheth Amitava Das HILM LRM 169 377 0 12 Sep 2023
Physically Grounded Vision-Language Models for Robotic Manipulation Jensen Gao Bidipta Sarkar F. Xia Ted Xiao Jiajun Wu Brian Ichter Anirudha Majumdar Dorsa Sadigh LM&Ro 65 129 0 05 Sep 2023
Detecting and Preventing Hallucinations in Large Vision Language Models Anisha Gunjal Jihan Yin Erhan Bas MLLM VLM 52 165 0 11 Aug 2023
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control Anthony Brohan Noah Brown Justice Carbajal Yevgen Chebotar Xi Chen ... Ted Xiao Peng Xu Sichun Xu Tianhe Yu Brianna Zitkovich LM&Ro LRM 112 1,231 0 28 Jul 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 269 11,791 0 18 Jul 2023
Mitigating Hallucination in Large Multi-Modal Models via Robust Instruction Tuning Fuxiao Liu Kevin Qinghong Lin Linjie Li Jianfeng Wang Yaser Yacoob Lijuan Wang VLM MLLM 89 275 0 26 Jun 2023
LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning Bo Liu Yifeng Zhu Chongkai Gao Yihao Feng Qian Liu Yuke Zhu Peter Stone CLL 120 142 0 05 Jun 2023
DINOv2: Learning Robust Visual Features without Supervision Maxime Oquab Timothée Darcet Théo Moutakanni Huy Q. Vo Marc Szafraniec ... Hervé Jégou Julien Mairal Patrick Labatut Armand Joulin Piotr Bojanowski VLM CLIP SSL 284 3,383 0 14 Apr 2023
Sigmoid Loss for Language Image Pre-Training Xiaohua Zhai Basil Mustafa Alexander Kolesnikov Lucas Beyer CLIP VLM 131 1,131 0 27 Mar 2023
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection Shilong Liu Zhaoyang Zeng Tianhe Ren Feng Li Hao Zhang ... Chun-yue Li Jianwei Yang Hang Su Jun Zhu Lei Zhang ObjD 172 1,964 0 09 Mar 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 1.4K 13,167 0 27 Feb 2023
RT-1: Robotics Transformer for Real-World Control at Scale Anthony Brohan Noah Brown Justice Carbajal Yevgen Chebotar Joseph Dabis ... Ted Xiao Peng Xu Sichun Xu Tianhe Yu Brianna Zitkovich LM&Ro 76 1,108 0 13 Dec 2022
Fast Inference from Transformers via Speculative Decoding Yaniv Leviathan Matan Kalman Yossi Matias LRM 105 701 0 30 Nov 2022
On Feature Learning in the Presence of Spurious Correlations Pavel Izmailov Polina Kirichenko Nate Gruver A. Wilson 81 128 0 20 Oct 2022
Resolution-robust Large Mask Inpainting with Fourier Convolutions Roman Suvorov Elizaveta Logacheva Anton Mashikhin Anastasia Remizova Arsenii Ashukha Aleksei Silvestrov Naejin Kong Harshith Goka Kiwoong Park Victor Lempitsky 87 851 0 15 Sep 2021
Improved Denoising Diffusion Probabilistic Models Alex Nichol Prafulla Dhariwal DiffM 305 3,671 0 18 Feb 2021
Denoising Diffusion Probabilistic Models Jonathan Ho Ajay Jain Pieter Abbeel DiffM 527 18,008 0 19 Jun 2020
Shortcut Learning in Deep Neural Networks Robert Geirhos J. Jacobsen Claudio Michaelis R. Zemel Wieland Brendel Matthias Bethge Felix Wichmann 198 2,049 0 16 Apr 2020
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization Ramprasaath R. Selvaraju Michael Cogswell Abhishek Das Ramakrishna Vedantam Devi Parikh Dhruv Batra FAtt 270 19,981 0 07 Oct 2016