v1v2 (latest)

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

4 January 2018

Pieter Abbeel

Papers citing "Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor"

50 / 4,130 papers shown

Title
World Models via Policy-Guided Trajectory Diffusion Marc Rigter Jun Yamada Ingmar Posner 114 21 0 13 Dec 2023
On Designing Multi-UAV aided Wireless Powered Dynamic Communication via Hierarchical Deep Reinforcement Learning Ze-Yu Zhao Y. Che Sheng Luo Gege Luo Kaishun Wu Victor C. M. Leung 13 2 0 13 Dec 2023
An Invitation to Deep Reinforcement Learning Bernhard Jaeger Andreas Geiger OffRL OOD 199 5 0 13 Dec 2023
Beyond Expected Return: Accounting for Policy Reproducibility when Evaluating Reinforcement Learning Algorithms Manon Flageat Bryan Lim Antoine Cully OffRL 79 3 0 12 Dec 2023
A dynamical clipping approach with task feedback for Proximal Policy Optimization Ziqi Zhang Jingzehua Xu Zifeng Zhuang Jinxin Liu Donglin Wang Shuai Zhang 118 1 0 12 Dec 2023
Decoupling Meta-Reinforcement Learning with Gaussian Task Contexts and Skills Hongcai He Anjie Zhu Shuang Liang Feiyu Chen Jie Shao OffRL 92 4 0 11 Dec 2023
DiffVL: Scaling Up Soft Body Manipulation using Vision-Language Driven Differentiable Physics Zhiao Huang Feng Chen Yewen Pu Chun-Tse Lin Hao Su Chuang Gan 86 5 0 11 Dec 2023
FOSS: A Self-Learned Doctor for Query Optimizer Kai Zhong Luming Sun Tao Ji Cuiping Li Hong Chen 55 0 0 11 Dec 2023
DiffAIL: Diffusion Adversarial Imitation Learning Bingzheng Wang Guoqiang Wu Teng Pang Yan Zhang Yilong Yin 92 13 0 11 Dec 2023
Spreeze: High-Throughput Parallel Reinforcement Learning Framework Jing Hou Guang Chen Ruiqi Zhang Zhijun Li Shangding Gu Changjun Jiang OffRL 80 2 0 11 Dec 2023
Synergizing Quality-Diversity with Descriptor-Conditioned Reinforcement Learning Maxence Faldor Félix Chalumeau Manon Flageat Antoine Cully 76 2 0 10 Dec 2023
Efficient Sparse-Reward Goal-Conditioned Reinforcement Learning with a High Replay Ratio and Regularization Takuya Hiraoka OffRL 84 1 0 10 Dec 2023
Graph-based Prediction and Planning Policy Network (GP3Net) for scalable self-driving in dynamic environments using Deep Reinforcement Learning Jayabrata Chowdhury Venkataramanan Shivaraman Suresh Sundaram P B Sujit 34 5 0 10 Dec 2023
DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement Learning Kun-Li Channing Lin Yufeng Wang Peihao Chen Runhao Zeng Siyuan Zhou Mingkui Tan Chuang Gan AI4CE 60 0 0 10 Dec 2023
Signatures Meet Dynamic Programming: Generalizing Bellman Equations for Trajectory Following Motoya Ohnishi Iretiayo Akinola Jie Xu Ajay Mandlekar Fabio Ramos 147 1 0 09 Dec 2023
On Task-Relevant Loss Functions in Meta-Reinforcement Learning and Online LQR Jaeuk Shin Giho Kim Howon Lee Joonho Han Insoon Yang OffRL 85 1 0 09 Dec 2023
A Review of Cooperation in Multi-agent Learning Yali Du Joel Z Leibo Usman Islam Richard Willis P. Sunehag 111 34 0 08 Dec 2023
Unsupervised Social Event Detection via Hybrid Graph Contrastive Learning and Reinforced Incremental Clustering Yuanyuan Guo Zehua Zang Hang Gao Xiao Xu Rui Wang Lixiang Liu Jiangmeng Li 85 8 0 08 Dec 2023
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization Carlos E. Luis A. Bottero Julia Vinogradska Felix Berkenkamp Jan Peters OffRL 116 3 0 07 Dec 2023
A Scalable Network-Aware Multi-Agent Reinforcement Learning Framework for Decentralized Inverter-based Voltage Control Han Xu Jialin Zheng Guannan Qu 24 2 0 07 Dec 2023
MIMo: A Multi-Modal Infant Model for Studying Cognitive Development Dominik Mattern Pierre Schumacher F. M. López Marcel C. Raabe M. Ernst A. Aubret Jochen Triesch 60 4 0 07 Dec 2023
MICRO: Model-Based Offline Reinforcement Learning with a Conservative Bellman Operator Xiao-Yin Liu Xiao-Hu Zhou Guo-Tao Li Hao Li Mei-Jiang Gui Tian-Yu Xiang De-Xing Huang Zeng-Guang Hou OffRL 94 6 0 07 Dec 2023
FoMo Rewards: Can we cast foundation models as reward functions? Ekdeep Singh Lubana Johann Brehmer P. D. Haan Taco S. Cohen OffRL LRM 99 3 0 06 Dec 2023
Pearl: A Production-ready Reinforcement Learning Agent Zheqing Zhu Rodrigo de Salvo Braz Jalaj Bhandari Daniel Jiang Yi Wan ... D. Korenkevych Ürün Dogan Frank Cheng Zheng Wu Wanqiao Xu VLM OffRL OnRL 129 7 0 06 Dec 2023
TrustFed: A Reliable Federated Learning Framework with Malicious-Attack Resistance Hangn Su Jianhong Zhou Xianhua Niu Gang Feng AAML 64 4 0 06 Dec 2023
Snake Robot with Tactile Perception Navigates on Large-scale Challenging Terrain Shuo Jiang Adarsh Salagame Alireza Ramezani Lawson Wong 63 5 0 06 Dec 2023
SDSRA: A Skill-Driven Skill-Recombination Algorithm for Efficient Policy Learning Eric Hanchen Jiang Andrew Lizarraga 68 0 0 06 Dec 2023
Using Curiosity for an Even Representation of Tasks in Continual Offline Reinforcement Learning Pathmanathan Pankayaraj Natalia Díaz Rodríguez Javier Del Ser CLL OffRL 154 0 0 05 Dec 2023
I-PHYRE: Interactive Physical Reasoning Shiqian Li Ke Wu Fangqiu Yi Yixin Zhu LRM 91 7 0 04 Dec 2023
Action Inference by Maximising Evidence: Zero-Shot Imitation from Observation with World Models Xingyuan Zhang Philip Becker-Ehmck Patrick van der Smagt Maximilian Karl 82 6 0 04 Dec 2023
Deep Reinforcement Learning for Community Battery Scheduling under Uncertainties of Load, PV Generation, and Energy Prices Jiarong Fan Hao Wang 41 1 0 04 Dec 2023
Modular Control Architecture for Safe Marine Navigation: Reinforcement Learning and Predictive Safety Filters Aksel Vaaler Svein Jostein Husa Daniel Menges T. N. Larsen Adil Rasheed 68 2 0 04 Dec 2023
GVFs in the Real World: Making Predictions Online for Water Treatment Muhammad Kamran Janjua Haseeb Shah Martha White Erfan Miahi Marlos C. Machado Adam White AI4CE 75 9 0 04 Dec 2023
BenchMARL: Benchmarking Multi-Agent Reinforcement Learning Matteo Bettini Amanda Prorok Vincent Moens OffRL 91 15 0 03 Dec 2023
Tracking Object Positions in Reinforcement Learning: A Metric for Keypoint Detection (extended version) Emma Cramer Jonas Reiher Sebastian Trimpe 102 0 0 01 Dec 2023
Efficient Off-Policy Safe Reinforcement Learning Using Trust Region Conditional Value at Risk Dohyeong Kim Songhwai Oh OffRL 91 19 0 01 Dec 2023
Handling Cost and Constraints with Off-Policy Deep Reinforcement Learning Jared Markowitz Jesse Silverberg Gary Collins OffRL 45 0 0 30 Nov 2023
Data-efficient Deep Reinforcement Learning for Vehicle Trajectory Control Bernd Frauenknecht Tobias Ehlgen Sebastian Trimpe 87 4 0 30 Nov 2023
Learning for Semantic Knowledge Base-Guided Online Feature Transmission in Dynamic Channels Xiangyu Gao Yaping Sun Dongyu Wei Xiaodong Xu Hao Chen Hao Yin Shuguang Cui 39 2 0 30 Nov 2023
Towards Assessing and Benchmarking Risk-Return Tradeoff of Off-Policy Evaluation Haruka Kiyohara Ren Kishimoto K. Kawakami Ken Kobayashi Kazuhide Nakata Yuta Saito OffRL 101 9 0 30 Nov 2023
An Investigation of Time Reversal Symmetry in Reinforcement Learning Brett Barkley Amy Zhang David Fridovich-Keil 50 1 0 28 Nov 2023
Goal-conditioned Offline Planning from Curious Exploration Marco Bagatella Georg Martius OffRL 93 1 0 28 Nov 2023
Two-step dynamic obstacle avoidance Fabian Hart Martin Waltz Ostap Okhrin 107 4 0 28 Nov 2023
Mission-driven Exploration for Accelerated Deep Reinforcement Learning with Temporal Logic Task Specifications Jun Wang Hosein Hasanbeig Kaiyuan Tan Zihe Sun Y. Kantaros 119 3 0 28 Nov 2023
Where2Start: Leveraging initial States for Robust and Sample-Efficient Reinforcement Learning Pouya Parsa Raoof Zare Moayedi Mohammad Bornosi Mohammad Mahdi Bejani 65 0 0 25 Nov 2023
Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning Melrose Roderick Gaurav Manek Felix Berkenkamp J. Zico Kolter OffRL OnRL 131 0 0 25 Nov 2023
How to ensure a safe control strategy? Towards a SRL for urban transit autonomous operation Zicong Zhao 43 1 0 24 Nov 2023
Offline Skill Generalization via Task and Motion Planning Shin Watanabe Geir Horn J. Tørresen K. Ellefsen OffRL 87 0 0 24 Nov 2023
Fast Policy Learning for Linear Quadratic Control with Entropy Regularization Xin Guo Xinyu Li Renyuan Xu 121 3 0 23 Nov 2023
Probabilistic Inference in Reinforcement Learning Done Right Jean Tarbouriech Tor Lattimore Brendan O'Donoghue BDL OffRL 90 4 0 22 Nov 2023