Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as Conversational Agents

22 May 2023

Kranti Chalamalasetti

Papers citing "Clembench: Using Game Play to Evaluate Chat-Optimized Language Models as Conversational Agents"

22 / 22 papers shown

Title
TextArena Leon Guertler Bobby Cheng Simon Yu Bo Liu Leshem Choshen Cheston Tan LLMAG 76 1 0 15 Apr 2025
Ad-hoc Concept Forming in the Game Codenames as a Means for Evaluating Large Language Models Sherzod Hakimov Lara Pfennigschmidt David Schlangen ELM 85 0 0 17 Feb 2025
Predicting the Target Word of Game-playing Conversations using a Low-Rank Dialect Adapter for Decoder Models Dipankar Srirag Aditya Joshi Jacob Eisenstein 102 1 0 31 Aug 2024
Evaluating Verifiability in Generative Search Engines Nelson F. Liu Tianyi Zhang Percy Liang HILM 69 240 0 19 Apr 2023
OpenAssistant Conversations -- Democratizing Large Language Model Alignment Andreas Kopf Yannic Kilcher Dimitri von Rutte Sotiris Anagnostidis Zhi Rui Tam ... Arnav Dantuluri Andrew Maguire Christoph Schuhmann Huu Nguyen A. Mattick ALM LM&MA 94 611 0 14 Apr 2023
Dialogue Games for Benchmarking Language Understanding: Motivation, Taxonomy, Strategy David Schlangen ELM 57 14 0 14 Apr 2023
Generative Agents: Interactive Simulacra of Human Behavior J. Park Joseph C. O'Brien Carrie J. Cai Meredith Ringel Morris Percy Liang Michael S. Bernstein LM&Ro AI4CE 364 1,852 0 07 Apr 2023
HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face Yongliang Shen Kaitao Song Xu Tan Dongsheng Li Weiming Lu Yueting Zhuang MLLM 89 871 0 30 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 890 13,788 0 15 Mar 2023
What A Situated Language-Using Agent Must be Able to Do: A Top-Down Analysis David Schlangen LLMAG LM&Ro 26 10 0 16 Feb 2023
A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity Yejin Bang Samuel Cahyawijaya Nayeon Lee Wenliang Dai Dan Su ... Tiezheng Yu Willy Chung Quyet V. Do Yan Xu Pascale Fung ReLM LRM 63 1,365 0 08 Feb 2023
Language Models as Agent Models Jacob Andreas LLMAG 54 135 0 03 Dec 2022
Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models Aarohi Srivastava Abhinav Rastogi Abhishek Rao Abu Awal Md Shoeb Abubakar Abid ... Zhuoye Zhao Zijian Wang Zijie J. Wang Zirui Wang Ziyi Wu ELM 119 1,739 0 09 Jun 2022
Can Visual Dialogue Models Do Scorekeeping? Exploring How Dialogue Representations Incrementally Encode Shared Knowledge Brielen Madureira David Schlangen 67 4 0 14 Apr 2022
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback Yuntao Bai Andy Jones Kamal Ndousse Amanda Askell Anna Chen ... Jack Clark Sam McCandlish C. Olah Benjamin Mann Jared Kaplan 226 2,457 0 12 Apr 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 730 12,525 0 04 Mar 2022
The slurk Interaction Server Framework: Better Data for Better Dialog Models Jana Gotze Maike Paetzel-Prusmann Wencke Liermann Tim Diekmann David Schlangen VLM 50 12 0 02 Feb 2022
Finetuned Language Models Are Zero-Shot Learners Jason W. Wei Maarten Bosma Vincent Zhao Kelvin Guu Adams Wei Yu Brian Lester Nan Du Andrew M. Dai Quoc V. Le ALM UQCV 72 3,678 0 03 Sep 2021
Adapting Language Models for Zero-shot Learning by Meta-tuning on Dataset and Prompt Collections Ruiqi Zhong Kristy Lee Zheng Zhang Dan Klein 78 171 0 10 Apr 2021
Learning to summarize from human feedback Nisan Stiennon Long Ouyang Jeff Wu Daniel M. Ziegler Ryan J. Lowe Chelsea Voss Alec Radford Dario Amodei Paul Christiano ALM 191 2,071 0 02 Sep 2020
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 548 41,106 0 28 May 2020
Playing Atari with Deep Reinforcement Learning Volodymyr Mnih Koray Kavukcuoglu David Silver Alex Graves Ioannis Antonoglou Daan Wierstra Martin Riedmiller 112 12,163 0 19 Dec 2013