v1v2 (latest)

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

4 January 2018

Pieter Abbeel

Papers citing "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor"

50 / 4,130 papers shown

Title
Exploration by Learning Diverse Skills through Successor State Measures Paul-Antoine Le Tolguenec Yann Besse Florent Teichteil-Königsbuch Dennis G. Wilson Emmanuel Rachelson 78 0 0 14 Jun 2024
Bridging the Communication Gap: Artificial Agents Learning Sign Language through Imitation Federico Tavella Aphrodite Galata Angelo Cangelosi 52 1 0 14 Jun 2024
Deep Bayesian Active Learning for Preference Modeling in Large Language Models Luckeciano C. Melo P. Tigas Alessandro Abate Yarin Gal 122 11 0 14 Jun 2024
Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model Siemen Herremans Ali Anwar Siegfried Mercelis 66 2 0 14 Jun 2024
I Know How: Combining Prior Policies to Solve New Tasks Malio Li Elia Piccoli Vincenzo Lomonaco Davide Bacciu CLL 56 0 0 14 Jun 2024
DAG-Plan: Generating Directed Acyclic Dependency Graphs for Dual-Arm Cooperative Planning Zeyu Gao Yao Mu Jinye Qu Mengkang Hu Lingyue Guo Ping Luo Yanfeng Lu Ping Luo Shanghang Zhang Yanfeng Lu 131 11 0 14 Jun 2024
AutomaChef: A Physics-informed Demonstration-guided Learning Framework for Granular Material Manipulation Minglun Wei Xintong Yang Yu-Kun Lai S. A. Tafrishi Ze Ji AI4CE 67 0 0 13 Jun 2024
DiffPoGAN: Diffusion Policies with Generative Adversarial Networks for Offline Reinforcement Learning Xuemin Hu Shen Li Yingfen Xu Bo Tang Long Chen 59 0 0 13 Jun 2024
CUER: Corrected Uniform Experience Replay for Off-Policy Continuous Deep Reinforcement Learning Algorithms Arda Sarp Yenicesu Furkan B. Mutlu Suleyman S. Kozat Ozgur S. Oguz 29 1 0 13 Jun 2024
A Dual Approach to Imitation Learning from Observations with Offline Datasets Harshit S. Sikchi Caleb Chuck Amy Zhang S. Niekum OffRL 101 4 0 13 Jun 2024
BaSeNet: A Learning-based Mobile Manipulator Base Pose Sequence Planning for Pickup Tasks Lakshadeep Naik Sinan Kalkan S. Sørensen Mikkel B. Kjærgaard Norbert Kruger 82 1 0 12 Jun 2024
Optimizing Deep Reinforcement Learning for Adaptive Robotic Arm Control Jonaid Shianifar Michael Schukat Karl Mason 42 3 0 12 Jun 2024
Residual Learning and Context Encoding for Adaptive Offline-to-Online Reinforcement Learning Mohammadreza Nakhaei Aidan Scannell Joni Pajarinen OffRL 103 1 0 12 Jun 2024
The Max-Min Formulation of Multi-Objective Reinforcement Learning: From Theory to a Model-Free Algorithm Giseung Park Woohyeon Byeon Seongmin Kim Elad Havakuk Amir Leshem Youngchul Sung 51 3 0 12 Jun 2024
Unifying Interpretability and Explainability for Alzheimer's Disease Progression Prediction Raja Farrukh Ali Stephanie Milani John Woods Emmanuel Adenij Ayesha Farooq Clayton Mansel Jeffrey Burns William Hsu 77 0 0 11 Jun 2024
CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning Zeyuan Liu Kai Yang Xiu Li OffRL 111 0 0 11 Jun 2024
Hybrid Reinforcement Learning from Offline Observation Alone Yuda Song J. Andrew Bagnell Aarti Singh OffRL 128 2 0 11 Jun 2024
Optimal Gait Control for a Tendon-driven Soft Quadruped Robot by Model-based Reinforcement Learning Xuezhi Niu Kaige Tan Lei Feng 64 0 0 11 Jun 2024
Semantic-Aware Spectrum Sharing in Internet of Vehicles Based on Deep Reinforcement Learning Wenjun Zhang Qiong Wu Pingyi Fan Nan Cheng Wen Chen Jiangzhou Wang Khaled B. Letaief 74 27 0 11 Jun 2024
Learning Continually by Spectral Regularization Alex Lewandowski Saurabh Kumar Dale Schuurmans András Gyorgy Marlos C. Machado CLL 94 6 0 10 Jun 2024
Coprocessor Actor Critic: A Model-Based Reinforcement Learning Approach For Adaptive Brain Stimulation Michelle Pan Mariah L. Schrum Vivek Myers Erdem Bıyık Anca Dragan 43 0 0 10 Jun 2024
Adaptive Opponent Policy Detection in Multi-Agent MDPs: Real-Time Strategy Switch Identification Using Running Error Estimation Mohidul Haque Mridul Mohammad Foysal Khan Redwan Ahmed Rizvee Md. Mosaddek Khan AAML 50 0 0 10 Jun 2024
Towards Real-World Efficiency: Domain Randomization in Reinforcement Learning for Pre-Capture of Free-Floating Moving Targets by Autonomous Robots Bahador Beigomi Zheng H. Zhu 69 0 0 10 Jun 2024
Decoupling regularization from the action space Sobhan Mohammadpour Emma Frejinger Pierre-Luc Bacon 73 2 0 10 Jun 2024
Boosting Robustness in Preference-Based Reinforcement Learning with Dynamic Sparsity Calarina Muslimani Bram Grooten Deepak Ranganatha Sastry Mamillapalli Mykola Pechenizkiy Decebal Constantin Mocanu Matthew E. Taylor 105 0 0 10 Jun 2024
ICU-Sepsis: A Benchmark MDP Built from Real Medical Data Kartik Choudhary Dhawal Gupta Philip S. Thomas OOD VLM 66 0 0 09 Jun 2024
LGR2: Language Guided Reward Relabeling for Accelerating Hierarchical Reinforcement Learning Utsav Singh Pramit Bhattacharyya Vinay P. Namboodiri LM&Ro 104 1 0 09 Jun 2024
Multi-attribute Auction-based Resource Allocation for Twins Migration in Vehicular Metaverses: A GPT-based DRL Approach Yongju Tong Junlong Chen Minrui Xu Jiawen Kang Zehui Xiong Dusit Niyato Chau Yuen Zhu Han 61 3 0 08 Jun 2024
Reinforcement Learning for Intensity Control: An Application to Choice-Based Network Revenue Management Huiling Meng Ningyuan Chen Xuefeng Gao 99 1 0 08 Jun 2024
Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning Arvi Jonnarth Ola Johansson Michael Felsberg OffRL 132 1 0 07 Jun 2024
Skill-aware Mutual Information Optimisation for Generalisation in Reinforcement Learning Xuehui Yu Mhairi Dunion Xin Li Stefano V. Albrecht 108 2 0 07 Jun 2024
Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning Zhongzheng Wang Yuntian Chen Guodong Chen Dongxiao Zhang AI4CE 81 1 0 07 Jun 2024
Strategically Conservative Q-Learning Yutaka Shimizu Joey Hong Sergey Levine Masayoshi Tomizuka OffRL OnRL 95 0 0 06 Jun 2024
ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories Qianlan Yang Yu-Xiong Wang OnRL 102 1 0 06 Jun 2024
Simulating, Fast and Slow: Learning Policies for Black-Box Optimization F. V. Massoli Tim Bakker Thomas M. Hehn Tribhuvanesh Orekondy Arash Behboodi 110 0 0 06 Jun 2024
Redundancy-aware Action Spaces for Robot Learning Pietro Mazzaglia Nicholas Backshall Xiao Ma Stephen James 80 2 0 06 Jun 2024
Bootstrapping Expectiles in Reinforcement Learning Pierre Clavier Emmanuel Rachelson E. L. Pennec Matthieu Geist OffRL 101 0 0 06 Jun 2024
AC4MPC: Actor-Critic Reinforcement Learning for Nonlinear Model Predictive Control Rudolf Reiter Andrea Ghezzi Katrin Baumgärtner Jasper Hoffmann Robert D. McAllister Moritz Diehl 90 8 0 06 Jun 2024
Exploring Pessimism and Optimism Dynamics in Deep Reinforcement Learning Bahareh Tasdighi Nicklas Werge Yi-Shan Wu M. Kandemir 42 0 0 06 Jun 2024
Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking Roland Stolz Hanna Krasowski Jakob Thumm Michael Eichelbeck Philipp Gassert Matthias Althoff CLL 46 4 0 06 Jun 2024
Reflective Policy Optimization Yaozhong Gan Renye Yan Zhe Wu Junliang Xing 84 1 0 06 Jun 2024
Object Manipulation in Marine Environments using Reinforcement Learning Ahmed Nader Muhayy ud Din Mughni Irfan Irfan Hussain 111 0 0 05 Jun 2024
DEER: A Delay-Resilient Framework for Reinforcement Learning with Variable Delays Bo Xia Yilun Kong Yongzhe Chang Bo Yuan Zhiheng Li Xueqian Wang Bin Liang OffRL 114 3 0 05 Jun 2024
"Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations Muhan Hou Koen V. Hindriks A. E. Eiben Kim Baraka OffRL 93 3 0 05 Jun 2024
Representation Learning For Efficient Deep Multi-Agent Reinforcement Learning Dom Huh Prasant Mohapatra 96 1 0 05 Jun 2024
Dynamically Expanding Capacity of Autonomous Driving with Near-Miss Focused Training Framework Ziyuan Yang Zhaoyang Li Jianming Hu Yi Zhang 61 0 0 05 Jun 2024
Multi-Agent Reinforcement Learning Meets Leaf Sequencing in Radiotherapy Riqiang Gao Florin-Cristian Ghesu Simon Arberet Shahab Basiri Esa Kuusela Martin Kraus Dorin Comaniciu A. Kamen AI4CE 50 1 0 03 Jun 2024
Learning the Target Network in Function Space Kavosh Asadi Yao Liu Shoham Sabach Ming Yin Rasool Fakoor 126 0 0 03 Jun 2024
When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL Lenart Treven Bhavya Sukhija Yarden As Florian Dorfler Andreas Krause 117 1 0 03 Jun 2024
Advancing DRL Agents in Commercial Fighting Games: Training, Integration, and Agent-Human Alignment Chen Zhang Qiang He Zhou Yuan Elvis S. Liu Hong Wang Jian Zhao Yang-Feng Wang 118 2 0 03 Jun 2024