Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction

18 July 2024

Papers citing "Werewolf Arena: A Case Study in LLM Evaluation via Social Deduction"

3 / 3 papers shown

Title
DSGBench: A Diverse Strategic Game Benchmark for Evaluating LLM-based Agents in Complex Decision-Making Environments Wenjie Tang Yuan Zhou Erqiang Xu Keyan Cheng Minne Li Liquan Xiao ELM 47 1 0 08 Mar 2025
A Survey on Large Language Model-Based Social Agents in Game-Theoretic Scenarios Xiachong Feng Longxu Dou Ella Li Qinghao Wang Haoran Wang Yu Guo Chang Ma Lingpeng Kong LM&Ro LM&MA ELM LLMAG AI4CE 70 4 0 05 Dec 2024
Simulating Human Strategic Behavior: Comparing Single and Multi-agent LLMs Karthik Sreedhar Lydia B. Chilton LLMAG 48 19 0 13 Feb 2024