From Reward Shaping to Q-Shaping: Achieving Unbiased Learning with LLM-Guided Knowledge

2 October 2024

Xiefeng Wu

Papers citing "From Reward Shaping to Q-Shaping: Achieving Unbiased Learning with LLM-Guided Knowledge"

24 / 24 papers shown

Title
Long-horizon Locomotion and Manipulation on a Quadrupedal Robot with Large Language Models Yutao Ouyang Jinhan Li Yunfei Li Zhongyu Li Chao Yu Koushil Sreenath Yi Wu 125 15 0 08 Apr 2024
Yi: Open Foundation Models by 01.AI 01. AI Alex Young 01.AI Alex Young Bei Chen Chao Li ... Yue Wang Yuxuan Cai Zhenyu Gu Zhiyuan Liu Zonghong Dai OSLM LRM 311 573 0 07 Mar 2024
WebArena: A Realistic Web Environment for Building Autonomous Agents Shuyan Zhou Frank F. Xu Hao Zhu Xuhui Zhou Robert Lo ... Tianyue Ou Yonatan Bisk Daniel Fried Uri Alon Graham Neubig LLMAG 178 494 0 25 Jul 2023
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis Izzeddin Gur Hiroki Furuta Austin Huang Mustafa Safdari Yutaka Matsuo Douglas Eck Aleksandra Faust LM&Ro LLMAG 169 225 0 24 Jul 2023
Language to Rewards for Robotic Skill Synthesis Wenhao Yu Nimrod Gileadi Chuyuan Fu Sean Kirmani Kuang-Huei Lee ... N. Heess Dorsa Sadigh Jie Tan Yuval Tassa F. Xia LM&Ro 94 283 0 14 Jun 2023
From Pixels to UI Actions: Learning to Follow Instructions via Graphical User Interfaces Peter Shaw Mandar Joshi James Cohan Jonathan Berant Panupong Pasupat Hexiang Hu Urvashi Khandelwal Kenton Lee Kristina Toutanova LLMAG LM&Ro 90 58 0 31 May 2023
Hierarchical Prompting Assists Large Language Model on Web Navigation Abishek Sridhar Robert Lo Frank F. Xu Hao Zhu Shuyan Zhou LRM 81 35 0 23 May 2023
Learning Agile Soccer Skills for a Bipedal Robot with Deep Reinforcement Learning Tuomas Haarnoja Ben Moran Guy Lever Sandy H. Huang Dhruva Tirumala ... Andrea Huber N. Hurley F. Nori R. Hadsell N. Heess 127 153 0 26 Apr 2023
Transformer-based World Models Are Happy With 100k Interactions Jan Robine Marc Höftmann Tobias Uelwer Stefan Harmeling OffRL 89 88 0 13 Mar 2023
VIMA: General Robot Manipulation with Multimodal Prompts Yunfan Jiang Agrim Gupta Zichen Zhang Guanzhi Wang Yongqiang Dou Yanjun Chen Li Fei-Fei Anima Anandkumar Yuke Zhu Linxi Fan LM&Ro 111 355 0 06 Oct 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 450 2,982 0 06 Oct 2022
Transformers are Sample-Efficient World Models Vincent Micheli Eloi Alonso Franccois Fleuret VLM OffRL 163 189 0 01 Sep 2022
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Kimin Lee Laura M. Smith Pieter Abbeel OffRL 65 289 0 09 Jun 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.0K 29,926 0 26 Feb 2021
Soft Actor-Critic Algorithms and Applications Tuomas Haarnoja Aurick Zhou Kristian Hartikainen George Tucker Sehoon Ha ... Vikash Kumar Henry Zhu Abhishek Gupta Pieter Abbeel Sergey Levine 150 2,453 0 13 Dec 2018
Residual Reinforcement Learning for Robot Control T. Johannink Shikhar Bahl Ashvin Nair Jianlan Luo Avinash Kumar M. Loskyll J. A. Ojea Eugen Solowjow Sergey Levine OffRL 83 420 0 07 Dec 2018
Addressing Function Approximation Error in Actor-Critic Methods Scott Fujimoto H. V. Hoof David Meger OffRL 195 5,226 0 26 Feb 2018
Deep reinforcement learning from human preferences Paul Christiano Jan Leike Tom B. Brown Miljan Martic Shane Legg Dario Amodei 218 3,377 0 12 Jun 2017
Curiosity-driven Exploration by Self-supervised Prediction Deepak Pathak Pulkit Agrawal Alexei A. Efros Trevor Darrell LRM SSL 128 2,453 0 15 May 2017
Reinforcement Learning with Unsupervised Auxiliary Tasks Max Jaderberg Volodymyr Mnih Wojciech M. Czarnecki Tom Schaul Joel Z Leibo David Silver Koray Kavukcuoglu SSL 111 1,229 0 16 Nov 2016
Generative Adversarial Imitation Learning Jonathan Ho Stefano Ermon GAN 165 3,125 0 10 Jun 2016
Unifying Count-Based Exploration and Intrinsic Motivation Marc G. Bellemare S. Srinivasan Georg Ostrovski Tom Schaul D. Saxton Rémi Munos 186 1,485 0 06 Jun 2016
Continuous control with deep reinforcement learning Timothy Lillicrap Jonathan J. Hunt Alexander Pritzel N. Heess Tom Erez Yuval Tassa David Silver Daan Wierstra 330 13,295 0 09 Sep 2015
Maximum Entropy Deep Inverse Reinforcement Learning Markus Wulfmeier Peter Ondruska Ingmar Posner OOD 116 406 0 17 Jul 2015