PersonaGym: Evaluating Persona Agents and LLMs

PersonaGym: Evaluating Persona Agents and LLMs

25 July 2024

Shreyas Chaudhari

Tanmay Rajpurohit

Ameet Deshpande

Karthik Narasimhan

Vishvak Murahari

Papers citing "PersonaGym: Evaluating Persona Agents and LLMs"

17 / 17 papers shown

Title
Towards Multi-Agent Reasoning Systems for Collaborative Expertise Delegation: An Exploratory Design Study Baixuan Xu Chunyang Li Weiqi Wang Wei Fan Tianshi Zheng Haizhou Shi Tao Fan Yangqiu Song Qiang Yang 31 0 0 12 May 2025
Sentient Agent as a Judge: Evaluating Higher-Order Social Cognition in Large Language Models Bang Zhang Ruotian Ma Qingxuan Jiang Peisong Wang Jiaqi Chen ... Fanghua Ye Jian Li Yifan Yang Zhaopeng Tu Xiaolong Li LLMAG ELM ALM 109 0 1 01 May 2025
A Survey on Large Language Model based Human-Agent Systems Henry Peng Zou Wei-Chieh Huang Yaozu Wu Yankai Chen Chunyu Miao ... Heng Chang Yuwei Cao Dongyuan Li Renhe Jiang Philip S. Yu LLMAG LM&Ro LM&MA 79 0 0 01 May 2025
Can LLMs Simulate Personas with Reversed Performance? A Benchmark for Counterfactual Instruction Following Sai Adith Senthil Kumar Hao Yan Saipavan Perepa Murong Yue Ziyu Yao 62 0 0 08 Apr 2025
Beyond Single-Sentence Prompts: Upgrading Value Alignment Benchmarks with Dialogues and Stories Yuyao Zhang Qimeng Liu Qiuchi Li Peng Zhang Jing Qin AAML 35 1 0 28 Mar 2025
A Thousand Words or An Image: Studying the Influence of Persona Modality in Multimodal LLMs Julius Broomfield Kartik Sharma Srijan Kumar 37 0 0 27 Feb 2025
HARBOR: Exploring Persona Dynamics in Multi-Agent Competition Kenan Jiang Li Xiong Fei Liu 61 0 0 17 Feb 2025
OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas Xiaoyang Wang H. Zhang Tao Ge W. Yu Dian Yu Dong Yu AI4CE 45 2 0 28 Jan 2025
The potential -- and the pitfalls -- of using pre-trained language models as cognitive science theories Raj Sanjay Shah Sashank Varma LRM 89 0 0 22 Jan 2025
Beyond Browsing: API-Based Web Agents Yueqi Song Frank F. Xu Shuyan Zhou Graham Neubig 61 15 0 21 Oct 2024
PingPong: A Benchmark for Role-Playing Language Models with User Emulation and Multi-Model Evaluation Ilya Gusev LLMAG 58 3 0 10 Sep 2024
DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity Xiaoyu Lin Xinkai Yu Ankit Aich Salvatore Giorgi Lyle Ungar ALM 42 0 0 30 Aug 2024
Large Language Models Are Involuntary Truth-Tellers: Exploiting Fallacy Failure for Jailbreak Attacks Yue Zhou Henry Peng Zou Barbara Maria Di Eugenio Yang Zhang HILM LRM 52 1 0 01 Jul 2024
Exploring Changes in Nation Perception with Nationality-Assigned Personas in LLMs M. Kamruzzaman Gene Louis Kim 37 4 0 20 Jun 2024
Two Tales of Persona in LLMs: A Survey of Role-Playing and Personalization Yu-Min Tseng Yu-Chao Huang Teng-Yun Hsiao Yu-Ching Hsu Chao-Wei Huang Jia-Yin Foo Yun-Nung Chen LLMAG 259 68 0 03 Jun 2024
From Persona to Personalization: A Survey on Role-Playing Language Agents Jiangjie Chen Xintao Wang Rui Xu Siyu Yuan Yikai Zhang ... Caiyu Hu Siye Wu Scott Ren Ziquan Fu Yanghua Xiao 62 77 0 28 Apr 2024
Character is Destiny: Can Large Language Models Simulate Persona-Driven Decisions in Role-Playing? Rui Xu Xintao Wang Jiangjie Chen Siyu Yuan Xinfeng Yuan Jiaqing Liang Zulong Chen Xiaoqing Dong Yanghua Xiao 63 4 0 18 Apr 2024