v1v2 (latest)

SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning

5 March 2025

Author Contacts:

yaodong.yang@pku.edu.cn

ArXiv (abs)PDF HTML

Papers citing "SafeVLA: Towards Safety Alignment of Vision-Language-Action Model via Constrained Learning"

50 / 62 papers shown

Title
Towards Safe Robot Foundation Models Using Inductive Biases Maximilian Tölle Theo Gruner Daniel Palenicek Tim Schneider Jonas Günster Joe Watson Davide Tateo Puze Liu Jan Peters OffRL AI4CE 63 0 0 15 May 2025
Vision-Language-Action Models: Concepts, Progress, Applications and Challenges Ranjan Sapkota Yang Cao Konstantinos I. Roumeliotis Manoj Karkee LM&Ro 383 2 0 07 May 2025
Optimizing Safe and Aligned Language Generation: A Multi-Objective GRPO Approach Xuying Li Zhuo Li Yuji Kosuga Victor Bian 105 3 0 26 Mar 2025
FAST: Efficient Action Tokenization for Vision-Language-Action Models Karl Pertsch Kyle Stachowicz Brian Ichter Danny Driess Suraj Nair Q. Vuong Oier Mees Chelsea Finn Sergey Levine 132 57 0 17 Jan 2025
Llama Guard 3 Vision: Safeguarding Human-AI Image Understanding Conversations Jianfeng Chi Ujjwal Karn Hongyuan Zhan Eric Michael Smith Javier Rando Yiming Zhang Kate Plawiak Zacharie Delpierre Coudert Kartikeya Upasani Mahesh Pasupuleti MLLM 3DH 111 31 0 15 Nov 2024
WorldSimBench: Towards Video Generation Models as World Simulators Yiran Qin Zhelun Shi Jiwen Yu Xijun Wang Enshen Zhou ... Lu Sheng Jing Shao Junlin Wu Wanli Ouyang Ruimao Zhang EGVM VGen 192 447 0 23 Oct 2024
RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation Songming Liu Lingxuan Wu Bangguo Li Hengkai Tan Huayu Chen Zhengyi Wang Ke Xu Hang Su Jun Zhu 119 113 0 10 Oct 2024
FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning Jiaheng Hu Rose Hendrix Ali Farhadi Aniruddha Kembhavi Roberto Martín-Martín Peter Stone Kuo-Hao Zeng Kiana Ehsani 103 14 0 25 Sep 2024
Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback Jiayi Zhou Yalan Qin Juntao Dai Yaodong Yang 119 8 0 30 Aug 2024
Robotic Control via Embodied Chain-of-Thought Reasoning Michał Zawalski William Chen Karl Pertsch Oier Mees Chelsea Finn Sergey Levine LRM LM&Ro 123 76 0 11 Jul 2024
PoliFormer: Scaling On-Policy RL with Transformers Results in Masterful Navigators Kuo-Hao Zeng Zichen Zhang Kiana Ehsani Rose Hendrix Jordi Salvador Alvaro Herrasti Ross Girshick Aniruddha Kembhavi Luca Weihs LM&Ro OffRL 67 22 0 28 Jun 2024
OpenVLA: An Open-Source Vision-Language-Action Model Moo Jin Kim Karl Pertsch Siddharth Karamcheti Ted Xiao Ashwin Balakrishna ... Russ Tedrake Dorsa Sadigh Sergey Levine Percy Liang Chelsea Finn LM&Ro VLM 235 477 0 13 Jun 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 287 52 0 23 May 2024
Octo: An Open-Source Generalist Robot Policy Octo Model Team Dibya Ghosh Homer Walke Karl Pertsch Kevin Black ... Quan Vuong Ted Xiao Dorsa Sadigh Chelsea Finn Sergey Levine 187 424 0 20 May 2024
Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems David Dalrymple Joar Skalse Yoshua Bengio Stuart J. Russell Max Tegmark ... Clark Barrett Ding Zhao Zhi-Xuan Tan Jeannette Wing Joshua Tenenbaum 88 58 0 10 May 2024
RT-H: Action Hierarchies Using Language Suneel Belkhale Tianli Ding Ted Xiao P. Sermanet Quon Vuong Jonathan Tompson Yevgen Chebotar Debidatta Dwibedi Dorsa Sadigh LM&Ro 91 87 0 04 Mar 2024
Foundation Models in Robotics: Applications, Challenges, and the Future Roya Firoozi Johnathan Tucker Stephen Tian Anirudha Majumdar Jiankai Sun ... Brian Ichter Danny Driess Jiajun Wu Cewu Lu Mac Schwager LM&Ro AI4CE LRM VLM 86 157 0 13 Dec 2023
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations Hakan Inan Kartikeya Upasani Jianfeng Chi Rashi Rungta Krithika Iyer ... Michael Tontchev Qing Hu Brian Fuller Davide Testuggine Madian Khabsa AI4MH 159 447 0 07 Dec 2023
How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for Vision LLMs Haoqin Tu Chenhang Cui Zijun Wang Yiyang Zhou Bingchen Zhao Junlin Han Wangchunshu Zhou Huaxiu Yao Cihang Xie MLLM 94 79 0 27 Nov 2023
RT-Trajectory: Robotic Task Generalization via Hindsight Trajectory Sketches Jiayuan Gu Sean Kirmani Paul Wohlhart Yao Lu Montse Gonzalez Arenas ... Hao Su Karol Hausman Chelsea Finn Q. Vuong Ted Xiao 76 73 0 03 Nov 2023
Safe RLHF: Safe Reinforcement Learning from Human Feedback Josef Dai Xuehai Pan Ruiyang Sun Jiaming Ji Xinbo Xu Mickel Liu Yizhou Wang Yaodong Yang 115 349 0 19 Oct 2023
Open X-Embodiment: Robotic Learning Datasets and RT-X Models Open X-Embodiment Collaboration Abby OÑeill Abdul Rehman Abhinav Gupta Abhiram Maddukuri ... Zhuo Xu Zichen Jeff Cui Zichen Zhang Zipeng Fu Zipeng Lin LM&Ro 163 510 0 13 Oct 2023
Can LLM-Generated Misinformation Be Detected? Canyu Chen Kai Shu DeLMO 106 177 0 25 Sep 2023
Bias and Fairness in Large Language Models: A Survey Isabel O. Gallegos Ryan Rossi Joe Barrow Md Mehrab Tanjim Sungchul Kim Franck Dernoncourt Tong Yu Ruiyi Zhang Nesreen Ahmed AILaw 96 580 0 02 Sep 2023
Image Hijacks: Adversarial Images can Control Generative Models at Runtime Luke Bailey Euan Ong Stuart J. Russell Scott Emmons VLM MLLM 70 84 0 01 Sep 2023
Reinforced Self-Training (ReST) for Language Modeling Çağlar Gülçehre T. Paine S. Srinivasan Ksenia Konyushkova L. Weerts ... Chenjie Gu Wolfgang Macherey Arnaud Doucet Orhan Firat Nando de Freitas OffRL 119 305 0 17 Aug 2023
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control Anthony Brohan Noah Brown Justice Carbajal Yevgen Chebotar Xi Chen ... Ted Xiao Peng Xu Sichun Xu Tianhe Yu Brianna Zitkovich LM&Ro LRM 160 1,244 0 28 Jul 2023
Challenges and Applications of Large Language Models Jean Kaddour J. Harris Maximilian Mozes Herbie Bradley Roberta Raileanu R. McHardy UQCV ALM AAML 69 309 0 19 Jul 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 305 11,894 0 18 Jul 2023
BeaverTails: Towards Improved Safety Alignment of LLM via a Human-Preference Dataset Jiaming Ji Mickel Liu Juntao Dai Xuehai Pan Chi Zhang Ce Bian Chi Zhang Ruiyang Sun Yizhou Wang Yaodong Yang ALM 96 483 0 10 Jul 2023
ViNT: A Foundation Model for Visual Navigation Dhruv Shah A. Sridhar Nitish Dashora Kyle Stachowicz Kevin Black Noriaki Hirose Sergey Levine LM&Ro 44 142 0 26 Jun 2023
An Overview of Catastrophic AI Risks Dan Hendrycks Mantas Mazeika Thomas Woodside SILM 65 181 0 21 Jun 2023
On Evaluating Adversarial Robustness of Large Vision-Language Models Yunqing Zhao Tianyu Pang Chao Du Xiao Yang Chongxuan Li Ngai-Man Cheung Min Lin VLM AAML MLLM 115 175 0 26 May 2023
Model evaluation for extreme risks Toby Shevlane Sebastian Farquhar Ben Garfinkel Mary Phuong Jess Whittlestone ... Vijay Bolina Jack Clark Yoshua Bengio Paul Christiano Allan Dafoe ELM 93 163 0 24 May 2023
OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning Research Jiaming Ji Jiayi Zhou Borong Zhang Juntao Dai Xuehai Pan Ruiyang Sun Weidong Huang Yiran Geng Mickel Liu Yaodong Yang OffRL 116 51 0 16 May 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 534 4,861 0 17 Apr 2023
Segment Anything A. Kirillov Eric Mintun Nikhila Ravi Hanzi Mao Chloe Rolland ... Spencer Whitehead Alexander C. Berg Wan-Yen Lo Piotr Dollár Ross B. Girshick MLLM VLM 334 7,297 0 05 Apr 2023
Foundation Models and Fair Use Peter Henderson Xuechen Li Dan Jurafsky Tatsunori Hashimoto Mark A. Lemley Percy Liang 78 123 0 28 Mar 2023
Diffusion Policy: Visuomotor Policy Learning via Action Diffusion Cheng Chi Zhenjia Xu S. Feng Eric A. Cousineau Yilun Du Benjamin Burchfiel Russ Tedrake Shuran Song 347 1,189 0 07 Mar 2023
A Comprehensive Survey on Pretrained Foundation Models: A History from BERT to ChatGPT Ce Zhou Qian Li Chen Li Jun Yu Yixin Liu ... P. Xie Caiming Xiong Jian Pei Philip S. Yu U. Chicago AI4CE 84 524 0 18 Feb 2023
Objaverse: A Universe of Annotated 3D Objects Matt Deitke Dustin Schwenk Jordi Salvador Luca Weihs Oscar Michel Eli VanderBilt Ludwig Schmidt Kiana Ehsani Aniruddha Kembhavi Ali Farhadi 100 962 0 15 Dec 2022
Constitutional AI: Harmlessness from AI Feedback Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell John Kernion ... Dario Amodei Nicholas Joseph Sam McCandlish Tom B. Brown Jared Kaplan SyDa MoMe 199 1,634 0 15 Dec 2022
RT-1: Robotics Transformer for Real-World Control at Scale Anthony Brohan Noah Brown Justice Carbajal Yevgen Chebotar Joseph Dabis ... Ted Xiao Peng Xu Sichun Xu Tianhe Yu Brianna Zitkovich LM&Ro 108 1,120 0 13 Dec 2022
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned Deep Ganguli Liane Lovitt John Kernion Amanda Askell Yuntao Bai ... Nicholas Joseph Sam McCandlish C. Olah Jared Kaplan Jack Clark 296 474 0 23 Aug 2022
ProcTHOR: Large-Scale Embodied AI Using Procedural Generation Matt Deitke Eli VanderBilt Alvaro Herrasti Luca Weihs Jordi Salvador ... Winson Han Eric Kolve Ali Farhadi Aniruddha Kembhavi Roozbeh Mottaghi LM&Ro 101 255 0 14 Jun 2022
A Generalist Agent Scott E. Reed Konrad Zolna Emilio Parisotto Sergio Gomez Colmenarejo Alexander Novikov ... Yutian Chen R. Hadsell Oriol Vinyals Mahyar Bordbar Nando de Freitas LM&Ro LLMAG AI4CE 206 823 0 12 May 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 387 3,542 0 29 Apr 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 880 12,973 0 04 Mar 2022
Safe Learning in Robotics: From Learning-Based Control to Safe Reinforcement Learning Lukas Brunke Melissa Greeff Adam W. Hall Zhaocong Yuan Siqi Zhou Jacopo Panerati Angela P. Schoellig OffRL 63 625 0 13 Aug 2021
Learning Barrier Certificates: Towards Safe Reinforcement Learning with Zero Training-time Violations Yuping Luo Tengyu Ma OffRL 72 43 0 04 Aug 2021