v1v2 (latest)

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

4 January 2018

Pieter Abbeel

Papers citing "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor"

50 / 4,128 papers shown

Title
A Generalist Dynamics Model for Control Ingmar Schubert Jingwei Zhang Jake Bruce Sarah Bechtle Emilio Parisotto Martin Riedmiller Jost Tobias Springenberg Arunkumar Byravan Leonard Hasenclever N. Heess AI4CE 95 33 0 18 May 2023
Black-Box Targeted Reward Poisoning Attack Against Online Deep Reinforcement Learning Yinglun Xu Gagandeep Singh OffRL AAML 69 3 0 18 May 2023
Wasserstein Gradient Flows for Optimizing Gaussian Mixture Policies Hanna Ziesche Leonel Rozo 82 6 0 17 May 2023
Demonstration-free Autonomous Reinforcement Learning via Implicit and Bidirectional Curriculum Jigang Kim Daesol Cho H. J. Kim 72 3 0 17 May 2023
Coagent Networks: Generalized and Scaled James E. Kostas Scott M. Jordan Yash Chandak Georgios Theocharous Dhawal Gupta Martha White Bruno Castro da Silva Philip S. Thomas OffRL 22 0 0 16 May 2023
Revisiting the Minimalist Approach to Offline Reinforcement Learning Denis Tarasov Vladislav Kurenkov Alexander Nikulin Sergey Kolesnikov OffRL 103 51 0 16 May 2023
Reinforcement Learning for Safe Robot Control using Control Lyapunov Barrier Functions Desong Du Shao-Fu Han Naiming Qi Haitham Bou-Ammar Jun Wang Wei Pan 87 15 0 16 May 2023
Prompt-Tuning Decision Transformer with Preference Ranking Shengchao Hu Li Shen Ya Zhang Dacheng Tao OffRL 90 14 0 16 May 2023
OmniSafe: An Infrastructure for Accelerating Safe Reinforcement Learning Research Jiaming Ji Jiayi Zhou Borong Zhang Juntao Dai Xuehai Pan Ruiyang Sun Weidong Huang Yiran Geng Mickel Liu Yaodong Yang OffRL 148 52 0 16 May 2023
What Matters in Reinforcement Learning for Tractography Antoine Théberge Christian Desrosiers Maxime Descoteaux Pierre-Marc Jodoin OffRL 48 2 0 15 May 2023
Delay-Adapted Policy Optimization and Improved Regret for Adversarial MDP with Delayed Bandit Feedback Tal Lancewicki Aviv A. Rosenberg Dmitry Sotnikov 55 3 0 13 May 2023
Quantile-Based Deep Reinforcement Learning using Two-Timescale Policy Gradient Algorithms Jinyang Jiang Jiaqiao Hu Yijie Peng 51 2 0 12 May 2023
On Practical Robust Reinforcement Learning: Practical Uncertainty Set and Double-Agent Algorithm Ukjo Hwang Songnam Hong 58 1 0 11 May 2023
GFlowNets with Human Feedback Yinchuan Li Shuang Luo Yunfeng Shao Jianye Hao AI4CE 68 5 0 11 May 2023
Towards Scalable Adaptive Learning with Graph Neural Networks and Reinforcement Learning Jean Vassoyan Jill-Jênn Vie Pirmin Lemberger GNN 30 3 0 10 May 2023
Policy Gradient Methods in the Presence of Symmetries and State Abstractions Prakash Panangaden S. Rezaei-Shoshtari Rosie Zhao David Meger Doina Precup 76 4 0 09 May 2023
RLocator: Reinforcement Learning for Bug Localization Partha Chakraborty Mahmoud Alfadel M. Nagappan 88 9 0 09 May 2023
DEFENDER: DTW-Based Episode Filtering Using Demonstrations for Enhancing RL Safety André Rosa de Sousa Porfírio Correia L. A. Alexandre OffRL 25 0 0 08 May 2023
Efficient Reinforcement Learning for Autonomous Driving with Parameterized Skills and Priors Letian Wang Jie Liu Hao Shao Wenshuo Wang Ruobing Chen Y. Liu Steven L. Waslander 64 31 0 08 May 2023
A Minimal Approach for Natural Language Action Space in Text-based Games Dongwon Kelvin Ryu Meng Fang Shirui Pan Gholamreza Haffari Ehsan Shareghi LLMAG 84 2 0 06 May 2023
Autonomous Navigation for Robot-assisted Intraluminal and Endovascular Procedures: A Systematic Review Ameya Pore Zhen Li Diego DallÁlba A. Hernansanz Elena De Momi A. Menciassi Alicia Casals Gelpí J. Dankelman Paolo Fiorini E. V. Poorten 93 30 0 06 May 2023
HACMan: Learning Hybrid Actor-Critic Maps for 6D Non-Prehensile Manipulation Wen-Min Zhou Bowen Jiang Fan Yang Chris Paxton David Held 141 33 0 06 May 2023
Knowledge Transfer from Teachers to Learners in Growing-Batch Reinforcement Learning P. Emedom-Nnamdi A. Friesen Bobak Shahriari Nando de Freitas Matthew W. Hoffman OffRL 90 0 0 05 May 2023
Bayesian Reinforcement Learning with Limited Cognitive Load Dilip Arumugam Mark K. Ho Noah D. Goodman Benjamin Van Roy OffRL 88 8 0 05 May 2023
Masked Trajectory Models for Prediction, Representation, and Control Philipp Wu Arjun Majumdar Kevin Stone Yixin Lin Igor Mordatch Pieter Abbeel Aravind Rajeswaran OffRL 67 39 0 04 May 2023
Maximum Causal Entropy Inverse Constrained Reinforcement Learning Mattijs Baert Pietro Mazzaglia Sam Leroux Pieter Simoens CML 115 10 0 04 May 2023
Multi-Task Multi-Behavior MAP-Elites Timothée Anne Jean-Baptiste Mouret MoE 41 7 0 02 May 2023
A Coupled Flow Approach to Imitation Learning G. Freund Elad Sarafian Sarit Kraus OOD 78 13 0 29 Apr 2023
Meta-Reinforcement Learning Based on Self-Supervised Task Representation Learning Mingyang Wang Zhenshan Bing Xiangtong Yao Shuai Wang Hang Su Chenguang Yang Kai Huang Alois C. Knoll SSL OOD 144 17 0 29 Apr 2023
Learning to Extrapolate: A Transductive Approach Aviv Netanyahu Abhishek Gupta Max Simchowitz Jianchao Tan Pulkit Agrawal 100 16 0 27 Apr 2023
JaxPruner: A concise library for sparsity research Jooyoung Lee Wonpyo Park Nicole Mitchell Jonathan Pilault J. Obando-Ceron ... Hong-Seok Kim Yann N. Dauphin Karolina Dziugaite Pablo Samuel Castro Utku Evci 122 17 0 27 Apr 2023
FLEX: an Adaptive Exploration Algorithm for Nonlinear Systems Matthieu Blanke Marc Lelarge 63 4 0 26 Apr 2023
Can Agents Run Relay Race with Strangers? Generalization of RL to Out-of-Distribution Trajectories Li-Cheng Lan Huan Zhang Cho-Jui Hsieh OODD 77 10 0 26 Apr 2023
Zero-shot Transfer Learning of Driving Policy via Socially Adversarial Traffic Flow Dongkun Zhang Jintao Xue Yuxiang Cui Yunkai Wang Eryun Liu Wei Jing Junbo Chen R. Xiong Yue Wang 92 0 0 25 Apr 2023
Hierarchical State Abstraction Based on Structural Information Principles Xianghua Zeng Hao Peng Angsheng Li Chunyang Liu Lifang He Philip S. Yu 64 20 0 24 Apr 2023
TempoRL: laser pulse temporal shape optimization with Deep Reinforcement Learning F. Capuano D. Peceli Gabriele Tiboni Raffaello Camoriano Bedvrich Rus 26 1 0 20 Apr 2023
IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion Policies Philippe Hansen-Estruch Ilya Kostrikov Michael Janner J. Kuba Sergey Levine OffRL 129 157 0 20 Apr 2023
Efficient Deep Reinforcement Learning Requires Regulating Overfitting Qiyang Li Aviral Kumar Ilya Kostrikov Sergey Levine OffRL 118 36 0 20 Apr 2023
Aiding reinforcement learning for set point control Ruoqing Zhang Per Mattsson T. Wigren 120 3 0 20 Apr 2023
Topological Guided Actor-Critic Modular Learning of Continuous Systems with Temporal Objectives Lening Li Zhentian Qian 73 0 0 20 Apr 2023
Learning and Adapting Agile Locomotion Skills by Transferring Experience Laura M. Smith J. Kew Tianyu Li Linda Luu Xue Bin Peng Sehoon Ha Jie Tan Sergey Levine 103 56 0 19 Apr 2023
Sample-efficient Model-based Reinforcement Learning for Quantum Control Irtaza Khalid C. Weidner E. Jonckheere Sophie G. Shermer F. Langbein 47 10 0 19 Apr 2023
Evolving Constrained Reinforcement Learning Policy Chengpeng Hu Jiyuan Pei Jialin Liu Xinghu Yao 58 2 0 19 Apr 2023
Using Offline Data to Speed-up Reinforcement Learning in Procedurally Generated Environments Alain Andres Lukas Schafer Esther Villar-Rodriguez Stefano V. Albrecht Javier Del Ser OffRL OnRL 82 3 0 18 Apr 2023
Benchmarking Actor-Critic Deep Reinforcement Learning Algorithms for Robotics Control with Action Constraints Kazumi Kasaura Shuwa Miura Tadashi Kozuno Ryo Yonetani Kenta Hoshino Y. Hosoe 84 14 0 18 Apr 2023
Reclaimer: A Reinforcement Learning Approach to Dynamic Resource Allocation for Cloud Microservices Quintin Fettes Avinash Karanth Razvan Bunescu Brandon Beckwith S. Subramoney 49 3 0 17 Apr 2023
Causal Decision Transformer for Recommender Systems via Offline Reinforcement Learning Siyu Wang Xiaocong Chen Dietmar Jannach Lina Yao CML OffRL 121 30 0 17 Apr 2023
Context-aware Domain Adaptation for Time Series Anomaly Detection Kwei-Herng Lai Lan Wang Huiyuan Chen Kaixiong Zhou Fei Wang Hao Yang Helen Zhou TTA AI4TS 95 8 0 15 Apr 2023
Model Predictive Control with Self-supervised Representation Learning Jonas A. Matthies Muhammad Burhan Hafez Mostafa Kotb S. Wermter SSL 25 0 0 14 Apr 2023
NaviSTAR: Socially Aware Robot Navigation with Hybrid Spatio-Temporal Graph Transformer and Preference Learning Weizheng Wang Ruiqi Wang Le Mao Byung-Cheol Min 87 14 0 12 Apr 2023