Reinforcement Learning via Fenchel-Rockafellar Duality

7 January 2020

Papers citing "Reinforcement Learning via Fenchel-Rockafellar Duality"

12 / 12 papers shown

Title
Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization Zishun Yu Tengyu Xu Di Jin Karthik Abinav Sankararaman Yun He ... Eryk Helenowski Chen Zhu Sinong Wang Hao Ma Han Fang LRM 110 7 0 29 Jan 2025
Near-Optimal Policy Identification in Robust Constrained Markov Decision Processes via Epigraph Form Toshinori Kitamura Tadashi Kozuno Wataru Kumagai Kenta Hoshino Y. Hosoe Kazumi Kasaura Masashi Hamaya Paavo Parmas Yutaka Matsuo 79 2 0 29 Aug 2024
Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning Linjiajie Fang Ruoxue Liu Jing Zhang Wenjia Wang Bing-Yi Jing OffRL 75 7 0 31 May 2024
A Dual Perspective of Reinforcement Learning for Imposing Policy Constraints Bram De Cooman Johan A. K. Suykens 45 0 0 25 Apr 2024
AlgaeDICE: Policy Gradient from Arbitrary Experience Ofir Nachum Bo Dai Ilya Kostrikov Yinlam Chow Lihong Li Dale Schuurmans OffRL 62 240 0 04 Dec 2019
Doubly Robust Bias Reduction in Infinite Horizon Off-Policy Estimation Ziyang Tang Yihao Feng Lihong Li Dengyong Zhou Qiang Liu OffRL 82 68 0 16 Oct 2019
Double Reinforcement Learning for Efficient Off-Policy Evaluation in Markov Decision Processes Nathan Kallus Masatoshi Uehara OffRL 66 185 0 22 Aug 2019
DualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections Ofir Nachum Yinlam Chow Bo Dai Lihong Li OffRL 73 332 0 10 Jun 2019
Exponential Family Estimation via Adversarial Dynamics Embedding Bo Dai Ziqiang Liu H. Dai Niao He Arthur Gretton Le Song Dale Schuurmans 47 53 0 27 Apr 2019
f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization Sebastian Nowozin Botond Cseke Ryota Tomioka GAN 73 1,648 0 02 Jun 2016
Deep Reinforcement Learning with Double Q-learning H. V. Hasselt A. Guez David Silver OffRL 115 7,590 0 22 Sep 2015
Should one compute the Temporal Difference fix point or minimize the Bellman Residual? The unified oblique projection view B. Scherrer 56 102 0 19 Nov 2010