PREDILECT: Preferences Delineated with Zero-Shot Language-based Reasoning in Reinforcement Learning

23 February 2024

Papers citing "PREDILECT: Preferences Delineated with Zero-Shot Language-based Reasoning in Reinforcement Learning"

24 / 24 papers shown

Title
GRACE: Generating Socially Appropriate Robot Actions Leveraging LLMs and Human Explanations Fethiye Irmak Dogan Umut Ozyurt Gizem Cinar Hatice Gunes LLMAG 77 4 0 25 Sep 2024
Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning Calarina Muslimani Matthew E. Taylor OffRL 108 2 0 30 Apr 2024
Multimodal Deep Learning Cem Akkus Jiquan Ngiam Vladana Djakovic Steffen Jauch-Walser A. Khosla ... Jann Goschenhofer Honglak Lee A. Ng Daniel Schalk Matthias Aßenmacher 120 3,174 0 12 Jan 2023
Large Language Models Are Reasoning Teachers Namgyu Ho Laura Schmid Se-Young Yun ReLM ELM LRM 111 350 0 20 Dec 2022
Few-Shot Preference Learning for Human-in-the-Loop RL Joey Hejna Dorsa Sadigh OffRL 107 100 0 06 Dec 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 823 9,576 0 28 Jan 2022
Skill Preferences: Learning to Extract and Execute Robotic Skills from Human Feedback Xiaofei Wang Kimin Lee Kourosh Hakhamaneshi Pieter Abbeel Michael Laskin 104 44 0 11 Aug 2021
Multimodal Few-Shot Learning with Frozen Language Models Maria Tsimpoukelli Jacob Menick Serkan Cabi S. M. Ali Eslami Oriol Vinyals Felix Hill MLLM 178 788 0 25 Jun 2021
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Kimin Lee Laura M. Smith Pieter Abbeel OffRL 65 288 0 09 Jun 2021
Active Preference-Based Gaussian Process Regression for Reward Learning Erdem Biyik Nicolas Huynh Mykel J. Kochenderfer Dorsa Sadigh GP 72 109 0 06 May 2020
Meta-Transfer Learning for Zero-Shot Super-Resolution Jae Woong Soh Sunwoo Cho N. Cho SupR 77 284 0 27 Feb 2020
Reward-rational (implicit) choice: A unifying formalism for reward learning Hong Jun Jeon S. Milli Anca Dragan 76 177 0 12 Feb 2020
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 523 42,559 0 03 Dec 2019
Self-training with Noisy Student improves ImageNet classification Qizhe Xie Minh-Thang Luong Eduard H. Hovy Quoc V. Le NoLa 312 2,392 0 11 Nov 2019
Self-Supervised Correspondence in Visuomotor Policy Learning Peter R. Florence Lucas Manuelli Russ Tedrake SSL 83 163 0 16 Sep 2019
Unsupervised Learning of Object Keypoints for Perception and Control Tejas D. Kulkarni Ankush Gupta Catalin Ionescu Sebastian Borgeaud Malcolm Reynolds Andrew Zisserman Volodymyr Mnih SSL OCL 55 196 0 19 Jun 2019
Few-Shot Goal Inference for Visuomotor Learning and Planning Annie Xie Avi Singh Sergey Levine Chelsea Finn OffRL 91 70 0 30 Sep 2018
Sim-to-Real Reinforcement Learning for Deformable Object Manipulation J. Matas Stephen James Andrew J. Davison AI4CE 69 360 0 20 Jun 2018
Know What You Don't Know: Unanswerable Questions for SQuAD Pranav Rajpurkar Robin Jia Percy Liang RALM ELM 290 2,853 0 11 Jun 2018
Inverse Reward Design Dylan Hadfield-Menell S. Milli Pieter Abbeel Stuart J. Russell Anca Dragan 81 399 0 08 Nov 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 526 19,237 0 20 Jul 2017
Loss is its own Reward: Self-Supervision for Reinforcement Learning Evan Shelhamer Parsa Mahmoudieh Max Argus Trevor Darrell SSL 83 186 0 21 Dec 2016
Learning to Navigate in Complex Environments Piotr Wojciech Mirowski Razvan Pascanu Fabio Viola Hubert Soyer Andy Ballard ... Ross Goroshin Laurent Sifre Koray Kavukcuoglu D. Kumaran R. Hadsell 107 880 0 11 Nov 2016
Active Transfer Learning with Zero-Shot Priors: Reusing Past Datasets for Future Tasks E. Gavves Thomas Mensink Tatiana Tommasi Cees G. M. Snoek Tinne Tuytelaars VLM 45 69 0 06 Oct 2015