v1v2 (latest)

Self-Play Q-learners Can Provably Collude in the Iterated Prisoner's Dilemma

13 December 2023

Papers citing "Self-Play Q-learners Can Provably Collude in the Iterated Prisoner's Dilemma"

1 / 1 papers shown

Title
Advantage Alignment Algorithms Juan Agustin Duque Milad Aghajohari Tim Cooijmans Tianyu Zhang Rameswar Panda Gauthier Gidel Aaron Courville 86 2 0 20 Jun 2024