Title
Evaluating Text Creativity across Diverse Domains: A Dataset and Large Language Model Evaluator Qian Cao Xiting Wang Yuzhuo Yuan Yahui Liu Fang Luo Ruihua Song 31 0 0 25 May 2025
Beyond Memorization: Mapping the Originality-Quality Frontier of Language Models Vishakh Padmakumar Chen Yueh-Han Jane Pan Valerie Chen He He 63 0 0 13 Apr 2025
Evaluating Creative Short Story Generation in Humans and Large Language Models Mete Ismayilzada Claire Stevenson Lonneke van der Plas LM&MA LRM 105 5 0 04 Nov 2024
Be My Donor. Transfer the NLP Datasets Between the Languages Using LLM Dmitrii Popov Egor Terentev Igor Buyanov 47 0 0 17 Oct 2024
SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs Yuling Gu Oyvind Tafjord Hyunwoo Kim Jared Moore Ronan Le Bras Peter Clark Yejin Choi 67 13 0 17 Oct 2024
The creative psychometric item generator: a framework for item generation and validation using large language models Antonio Laverghetta Jr. Simone Luchini Averie Linell Roni Reiter-Palmon Roger Beaty 84 0 0 30 Aug 2024
Creative Problem Solving in Large Language and Vision Models -- What Would it Take? Lakshmi Nair Evana Gizzi Jivko Sinapov MLLM 104 4 0 02 May 2024
Characterising the Creative Process in Humans and Large Language Models Surabhi S. Nath Peter Dayan Claire Stevenson 90 5 0 01 May 2024
NEWTON: Are Large Language Models Capable of Physical Reasoning? Yi Ru Wang Jiafei Duan Dieter Fox S. Srinivasa ELM LRM AIMat ReLM 118 33 0 10 Oct 2023
Creativity Support in the Age of Large Language Models: An Empirical Study Involving Emerging Writers Tuhin Chakrabarty Vishakh Padmakumar Faeze Brahman Smaranda Muresan 82 40 0 22 Sep 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 361 12,044 0 18 Jul 2023
PlaSma: Making Small Language Models Better Procedural Knowledge Models for (Counterfactual) Planning Faeze Brahman Chandra Bhagavatula Valentina Pyatkin Jena D. Hwang Xiang Lorraine Li H. J. Arai Soumya Sanyal Keisuke Sakaguchi Xiang Ren Yejin Choi LRM 61 0 0 31 May 2023
We're Afraid Language Models Aren't Modeling Ambiguity Alisa Liu Zhaofeng Wu Julian Michael Alane Suhr Peter West Alexander Koller Swabha Swayamdipta Noah A. Smith Yejin Choi 105 103 0 27 Apr 2023
Help me write a poem: Instruction Tuning as a Vehicle for Collaborative Poetry Writing Tuhin Chakrabarty Vishakh Padmakumar Hengxing He 77 81 0 25 Oct 2022
ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan Yuan Cao LLMAG ReLM LRM 434 2,955 0 06 Oct 2022
Co-Writing Screenplays and Theatre Scripts with Language Models: An Evaluation by Industry Professionals Piotr Wojciech Mirowski Kory W. Mathewson Jaylen Pittman Richard Evans HAI 108 262 0 29 Sep 2022
Do Androids Laugh at Electric Sheep? Humor "Understanding" Benchmarks from The New Yorker Caption Contest Jack Hessel Ana Marasović Jena D. Hwang Lillian Lee Jeff Da Rowan Zellers Robert Mankoff Yejin Choi VLM 86 91 0 13 Sep 2022
Structured, flexible, and robust: benchmarking and improving large language models towards more human-like behavior in out-of-distribution reasoning tasks Katherine M. Collins Catherine Wong Jiahai Feng Megan Wei J. Tenenbaum LRM 77 61 0 11 May 2022
AmbiPun: Generating Humorous Puns with Ambiguous Context Anirudh Mittal Yufei Tian Nanyun Peng 66 26 0 04 May 2022
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 413 6,908 0 13 Apr 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 883 13,176 0 04 Mar 2022
PTR: A Benchmark for Part-based Conceptual, Relational, and Physical Reasoning Yining Hong Li Yi J. Tenenbaum Antonio Torralba Chuang Gan 50 40 0 09 Dec 2021
PROST: Physical Reasoning of Objects through Space and Time Stéphane Aroca-Ouellette Cory Paik Alessandro Roncone Katharina Kann LRM 57 49 0 07 Jun 2021
Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation Nils Reimers Iryna Gurevych 104 1,030 0 21 Apr 2020
PIQA: Reasoning about Physical Commonsense in Natural Language Yonatan Bisk Rowan Zellers Ronan Le Bras Jianfeng Gao Yejin Choi OOD LRM 170 1,839 0 26 Nov 2019
PHYRE: A New Benchmark for Physical Reasoning A. Bakhtin Laurens van der Maaten Justin Johnson Laura Gustafson Ross B. Girshick LRM 64 129 0 15 Aug 2019
The Curious Case of Neural Text Degeneration Ari Holtzman Jan Buys Li Du Maxwell Forbes Yejin Choi 199 3,210 0 22 Apr 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 346 5,860 0 21 Apr 2019
SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference Rowan Zellers Yonatan Bisk Roy Schwartz Yejin Choi 109 718 0 16 Aug 2018