Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm

5 March 2025

Papers citing "Human Implicit Preference-Based Policy Fine-tuning for Multi-Agent Reinforcement Learning in USV Swarm"

8 / 8 papers shown

Title
A Survey of Scaling in Large Language Model Reasoning Zihan Chen Song Wang Zhen Tan Xingbo Fu Zhenyu Lei Peng Wang Huan Liu Cong Shen Jundong Li LRM 140 1 0 02 Apr 2025
Few-Shot Preference Learning for Human-in-the-Loop RL Joey Hejna Dorsa Sadigh OffRL 90 93 0 06 Dec 2022
The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models Alexander Pan Kush S. Bhatia Jacob Steinhardt 73 174 0 10 Jan 2022
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training Kimin Lee Laura M. Smith Pieter Abbeel OffRL 56 282 0 09 Jun 2021
Avoiding Side Effects in Complex Environments Alexander Matt Turner Neale Ratzlaff Prasad Tadepalli 51 34 0 11 Jun 2020
Learning Dexterous In-Hand Manipulation OpenAI OpenAI Marcin Andrychowicz Bowen Baker Maciek Chociej Rafal Jozefowicz ... Szymon Sidor Joshua Tobin Peter Welinder Lilian Weng Wojciech Zaremba 99 1,865 0 01 Aug 2018
Relational inductive biases, deep learning, and graph networks Peter W. Battaglia Jessica B. Hamrick V. Bapst Alvaro Sanchez-Gonzalez V. Zambaldi ... Pushmeet Kohli M. Botvinick Oriol Vinyals Yujia Li Razvan Pascanu AI4CE NAI 527 3,101 0 04 Jun 2018
Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling Junyoung Chung Çağlar Gülçehre Kyunghyun Cho Yoshua Bengio 390 12,662 0 11 Dec 2014