Title
IL-TUR: Benchmark for Indian Legal Text Understanding and Reasoning Abhinav Joshi Shounak Paul Akshat Sharma Pawan Goyal Saptarshi Ghosh Ashutosh Modi AILaw ELM 34 7 0 07 Jul 2024
Dolphin: A Challenging and Diverse Benchmark for Arabic NLG El Moatez Billah Nagoudi AbdelRahim Elmadany Ahmed Oumar El-Shangiti Muhammad Abdul-Mageed LM&MA 30 17 0 24 May 2023
NorBench -- A Benchmark for Norwegian Language Models David Samuel Andrey Kutuzov Samia Touileb Erik Velldal Lilja Ovrelid Egil Rønningstad Elina Sigdel Anna Palatkina 26 23 0 06 May 2023
A Survey of Knowledge Enhanced Pre-trained Language Models Linmei Hu Zeyi Liu Ziwang Zhao Lei Hou Liqiang Nie Juanzi Li KELM VLM 24 121 0 11 Nov 2022
ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation Junyi Li Tianyi Tang Wayne Xin Zhao J. Nie Ji-Rong Wen 22 17 0 24 Oct 2022
P $^3$ LM: Probabilistically Permuted Prophet Language Modeling for Generative Pre-Training Junwei Bao Yifan Wang Jiangyong Ying Yeyun Gong Jing Zhao Youzheng Wu Xiaodong He 37 1 0 22 Oct 2022
Near-Negative Distinction: Giving a Second Life to Human Evaluation Datasets Philippe Laban Chien-Sheng Wu Wenhao Liu Caiming Xiong 33 5 0 13 May 2022
Variational Autoencoder with Disentanglement Priors for Low-Resource Task-Specific Natural Language Generation Zhuang Li Lizhen Qu Qiongkai Xu Tongtong Wu Tianyang Zhan Gholamreza Haffari CoGe UD DRL 41 4 0 27 Feb 2022
Compression, Transduction, and Creation: A Unified Framework for Evaluating Natural Language Generation Mingkai Deng Bowen Tan Zhengzhong Liu Eric P. Xing Zhiting Hu 16 72 0 14 Sep 2021
Asking Questions Like Educational Experts: Automatically Generating Question-Answer Pairs on Real-World Examination Data Fanyi Qu Xin Jia Yunfang Wu AI4Ed 89 24 0 11 Sep 2021
LOT: A Story-Centric Benchmark for Evaluating Chinese Long Text Understanding and Generation Jian-Yu Guan Zhuoer Feng Yamei Chen Ru He Xiaoxi Mao Changjie Fan Minlie Huang 36 31 0 30 Aug 2021
Human Evaluation of Creative NLG Systems: An Interdisciplinary Survey on Recent Papers Mika Hämäläinen Khalid Alnajjar ELM LM&MA 25 16 0 31 Jul 2021
Indian Legal NLP Benchmarks : A Survey Prathamesh Kalamkar Janani Venugopalan Vivek Raghavan ELM AILaw VLM 25 5 0 13 Jul 2021
GEM: A General Evaluation Benchmark for Multimodal Tasks Lin Su Nan Duan Edward Cui Lei Ji Chenfei Wu Huaishao Luo Yongfei Liu Ming Zhong Taroon Bharti Arun Sacheti VLM 19 19 0 18 Jun 2021
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics Sebastian Gehrmann Tosin P. Adewumi Karmanya Aggarwal Pawan Sasanka Ammanamanchi Aremu Anuoluwapo ... Nishant Subramani Wei-ping Xu Diyi Yang Akhila Yerukola Jiawei Zhou VLM 248 285 0 02 Feb 2021
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,956 0 20 Apr 2018