v1v2 (latest)

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

4 January 2018

Pieter Abbeel

Papers citing "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor"

50 / 4,130 papers shown

Title
Equivariant Reinforcement Learning Frameworks for Quadrotor Low-Level Control Beomyeol Yu Taeyoung Lee 141 0 0 27 Feb 2025
IL-SOAR : Imitation Learning with Soft Optimistic Actor cRitic Stefano Viel Luca Viano Volkan Cevher 213 1 0 27 Feb 2025
Safety Representations for Safer Policy Learning Kaustubh Mani Vincent Mai Charlie Gauthier Annie Chen Samer Nashed Liam Paull 64 0 0 27 Feb 2025
WOFOSTGym: A Crop Simulator for Learning Annual and Perennial Crop Management Strategies William Solow Sandhya Saisubramanian Alan Fern OffRL 124 0 0 26 Feb 2025
XSS Adversarial Attacks Based on Deep Reinforcement Learning: A Replication and Extension Study Samuele Pasini Gianluca Maragliano Jinhan Kim Paolo Tonella AAML 74 0 0 26 Feb 2025
RL-OGM-Parking: Lidar OGM-Based Hybrid Reinforcement Learning Planner for Autonomous Parking Zhitao Wang Zhe Chen Mingyang Jiang Tong Qin Ming Yang 423 2 0 26 Feb 2025
Distilling Reinforcement Learning Algorithms for In-Context Model-Based Planning Jaehyeon Son Soochan Lee Gunhee Kim OffRL 135 4 0 26 Feb 2025
Sample-efficient diffusion-based control of complex nonlinear systems Hongyi Chen Jingtao Ding Jianhai Shu Xinchun Yu Xiaojun Liang Yong Li Xiao-Ping Zhang 505 0 0 25 Feb 2025
ARBoids: Adaptive Residual Reinforcement Learning With Boids Model for Cooperative Multi-USV Target Defense Jiyue Tao Tongsheng Shen Dexin Zhao Feitian Zhang AAML 97 0 0 25 Feb 2025
CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models Zihao Sheng Zilin Huang Yansong Qu Yue Leng Sruthi Bhavanam Sikai Chen 113 4 0 24 Feb 2025
Yes, Q-learning Helps Offline In-Context RL Denis Tarasov Alexander Nikulin Ilya Zisman Albina Klepach Andrei Polubarov Nikita Lyubaykin Alexander Derevyagin Igor Kiselev Vladislav Kurenkov OffRL OnRL 496 3 0 24 Feb 2025
SAMG: Offline-to-Online Reinforcement Learning via State-Action-Conditional Offline Model Guidance Liyu Zhang Haochi Wu Xu Wan Quan Kong Ruilong Deng Mingyang Sun OffRL OnRL 71 0 0 24 Feb 2025
A Simulation Pipeline to Facilitate Real-World Robotic Reinforcement Learning Applications Jefferson Silveira Joshua A. Marshall Sidney N. Givigi Jr 129 0 0 24 Feb 2025
TDMPBC: Self-Imitative Reinforcement Learning for Humanoid Robot Control Zifeng Zhuang Diyuan Shi Runze Suo Xiao He Hongyin Zhang Ting Wang Shangke Lyu Donglin Wang 86 1 0 24 Feb 2025
Score-Based Diffusion Policy Compatible with Reinforcement Learning via Optimal Transport Mingyang Sun Pengxiang Ding Weinan Zhang Donglin Wang OT 144 0 0 24 Feb 2025
Predicting Liquidity-Aware Bond Yields using Causal GANs and Deep Reinforcement Learning with LLM Evaluation Jaskaran Singh Walia Aarush Sinha Srinitish Srinivasan Srihari Unnikrishnan 149 1 0 24 Feb 2025
Enhancing PPO with Trajectory-Aware Hybrid Policies Qisai Liu Zhanhong Jiang Hsin-Jung Yang Mahsa Khosravi Joshua R. Waite Soumik Sarkar 114 0 0 21 Feb 2025
SALSA-RL: Stability Analysis in the Latent Space of Actions for Reinforcement Learning Xuyang Li Romit Maulik 127 0 0 21 Feb 2025
Reinforcement Learning-based Receding Horizon Control using Adaptive Control Barrier Functions for Safety-Critical Systems Ehsan Sabouni Hijaz Ahmad Vittorio Giammarino Christos G. Cassandras I. Paschalidis Wenchao Li 179 2 0 21 Feb 2025
TAG: A Decentralized Framework for Multi-Agent Hierarchical Reinforcement Learning Giuseppe Paolo Abdelhakim Benechehab Hamza Cherkaoui Albert Thomas Balázs Kégl 96 0 0 21 Feb 2025
PPO-MI: Efficient Black-Box Model Inversion via Proximal Policy Optimization Xinpeng Shou 110 0 0 21 Feb 2025
Hyperspherical Normalization for Scalable Deep Reinforcement Learning Hojoon Lee Youngdo Lee Takuma Seno Donghu Kim Peter Stone Jaegul Choo 183 4 0 21 Feb 2025
Uncertainty Representations in State-Space Layers for Deep Reinforcement Learning under Partial Observability Carlos E. Luis A. Bottero Julia Vinogradska Felix Berkenkamp Jan Peters 239 1 0 20 Feb 2025
Robotic Table Tennis: A Case Study into a High Speed Learning System David B. DÁmbrosio Jonathan Abelian Saminda Abeyruwan Michael Ahn Alex Bewley ... Vikas Sindhwani Avi Singh Vincent Vanhoucke Grace Vesom Peng Xu 147 16 0 20 Feb 2025
Traffic Scene Generation from Natural Language Description for Autonomous Vehicles with Large Language Model Bo-Kai Ruan Hao-Tang Tsui Yung-Hui Li Hong-Han Shuai LM&Ro 188 10 0 20 Feb 2025
ArrayBot: Reinforcement Learning for Generalizable Distributed Manipulation through Touch Zhengrong Xue H. Zhang Jin Cheng Zhengmao He Yuanchen Ju Chan-Yu Lin Gu Zhang Huazhe Xu OffRL 176 11 0 20 Feb 2025
Collaboration Between the City and Machine Learning Community is Crucial to Efficient Autonomous Vehicles Routing Anastasia Psarou Ahmet Onur Akman Łukasz Gorczyca Michał Hoffmann Zoltán György Varga Grzegorz Jamróz 113 0 0 18 Feb 2025
Zero-shot Model-based Reinforcement Learning using Large Language Models Abdelhakim Benechehab Youssef Attia El Hili Ambroise Odonnat Oussama Zekri Albert Thomas Giuseppe Paolo Maurizio Filippone I. Redko Balázs Kégl OffRL 147 1 0 17 Feb 2025
Learning a Diffusion Model Policy from Rewards via Q-Score Matching Michael Psenka Alejandro Escontrela Pieter Abbeel Yi-An Ma DiffM 177 33 0 17 Feb 2025
Maximum Entropy Reinforcement Learning with Diffusion Policy Xiaoyi Dong Jian Cheng Xinsong Zhang 131 2 0 17 Feb 2025
COMBO-Grasp: Learning Constraint-Based Manipulation for Bimanual Occluded Grasping Jun Yamada Alexander L. Mitchell Jack Collins Ingmar Posner OffRL 166 0 0 17 Feb 2025
Massively Scaling Explicit Policy-conditioned Value Functions Nico Bohlinger Jan Peters OffRL 103 0 0 17 Feb 2025
Maximize Your Diffusion: A Study into Reward Maximization and Alignment for Diffusion-based Control Dom Huh P. Mohapatra 168 1 0 16 Feb 2025
Memory, Benchmark & Robots: A Benchmark for Solving Complex Tasks with Reinforcement Learning Egor Cherepanov Nikita Kachaev A. Kovalev Aleksandr I. Panov OffRL 180 0 0 14 Feb 2025
Digi-Q: Learning Q-Value Functions for Training Device-Control Agents Hao Bai Yifei Zhou Li Erran Li Sergey Levine Aviral Kumar OffRL 80 6 0 13 Feb 2025
Discovery of skill switching criteria for learning agile quadruped locomotion Wanming Yu Fernando Acero Vassil Atanassov Chuanyu Yang Ioannis Havoutis Dimitrios Kanoulas Zhibin Li 91 1 0 10 Feb 2025
Infinite-Horizon Value Function Approximation for Model Predictive Control Armand Jordana Sébastien Kleff Arthur Haffemayer Joaquim Ortiz de Haro Justin Carpentier Nicolas Mansard Ludovic Righetti 80 0 0 10 Feb 2025
Towards Bio-inspired Heuristically Accelerated Reinforcement Learning for Adaptive Underwater Multi-Agents Behaviour Antoine Vivien Thomas Chaffre Matthew Stephenson Eva Artusi Paulo E. Santos Benoit Clement Karl Sammut AI4CE 88 0 0 10 Feb 2025
Towards a Sharp Analysis of Offline Policy Learning for $f$ -Divergence-Regularized Contextual Bandits Qingyue Zhao Kaixuan Ji Heyang Zhao Tong Zhang Q. Gu OffRL 113 0 0 09 Feb 2025
Leveraging Constraint Violation Signals For Action-Constrained Reinforcement Learning J. Brahmanage Jiajing Ling Akshat Kumar 151 0 0 08 Feb 2025
Imitation Learning from a Single Temporally Misaligned Video William Huey Huaxiaoyue Wang Anne Wu Yoav Artzi Sanjiban Choudhury AI4TS 103 0 0 08 Feb 2025
Low-Rank Agent-Specific Adaptation (LoRASA) for Multi-Agent Policy Learning Beining Zhang Aditya Kapoor Mingfei Sun 293 0 0 08 Feb 2025
Every Call is Precious: Global Optimization of Black-Box Functions with Unknown Lipschitz Constants Fares Fourati Salma Kharrat Vaneet Aggarwal Mohamed-Slim Alouini 118 0 0 06 Feb 2025
Mirror Descent Actor Critic via Bounded Advantage Learning Ryo Iwaki 143 0 0 06 Feb 2025
Learning from Active Human Involvement through Proxy Value Propagation Zhenghao Peng Wenjie Mo Chenda Duan Quanyi Li Bolei Zhou 190 16 0 05 Feb 2025
Synthesis of Model Predictive Control and Reinforcement Learning: Survey and Classification Rudolf Reiter Jasper Hoffmann D. Reinhardt Florian Messerer Katrin Baumgärtner Shamburaj Sawant Joschka Boedecker Moritz Diehl S. Gros 128 5 0 04 Feb 2025
Rapidly Adapting Policies to the Real World via Simulation-Guided Fine-Tuning Patrick Yin Tyler Westenbroek Simran Bagaria Kevin Huang Ching-an Cheng Andrey Kobolov Abhishek Gupta 181 4 0 04 Feb 2025
RAPID: Robust and Agile Planner Using Inverse Reinforcement Learning for Vision-Based Drone Navigation Minwoo Kim Geunsik Bae Jinwoo Lee Woojae Shin Changseung Kim Myong-Yol Choi Heejung Shin H. Oh 210 0 0 04 Feb 2025
VolleyBots: A Testbed for Multi-Drone Volleyball Game Combining Motion Control and Strategic Play Zelai Xu Chao Yu Chao Yu Huining Yuan Xiangmin Yi ... Wenhao Tang Yu Wang Wenbo Ding Xiusi Chen Yu Wang 332 0 0 04 Feb 2025
Circular Microalgae-Based Carbon Control for Net Zero Federico Zocco Joan García W. Haddad 201 1 0 04 Feb 2025