Title
DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering Pei Ke Fei Huang Fei Mi Yasheng Wang Qun Liu Xiaoyan Zhu Minlie Huang ReLM ELM 36 10 0 13 Jul 2023
IFAN: An Explainability-Focused Interaction Framework for Humans and NLP Models Edoardo Mosca Daryna Dementieva Tohid Ebrahim Ajdari Maximilian Kummeth Kirill Gringauz Yutong Zhou Georg Groh 24 8 0 06 Mar 2023
Moving Beyond Downstream Task Accuracy for Information Retrieval Benchmarking Keshav Santhanam Jon Saad-Falcon M. Franz Omar Khattab Avirup Sil Radu Florian Md Arafat Sultan Salim Roukos Matei A. Zaharia Christopher Potts OffRL 26 10 0 02 Dec 2022
Towards a Unified Multi-Dimensional Evaluator for Text Generation Ming Zhong Yang Liu Da Yin Yuning Mao Yizhu Jiao Peng Liu Chenguang Zhu Heng Ji Jiawei Han ELM 45 254 0 13 Oct 2022
Evaluate & Evaluation on the Hub: Better Best Practices for Data and Model Measurements Leandro von Werra Lewis Tunstall A. Thakur A. Luccioni Tristan Thrush ... Julien Chaumond Margaret Mitchell Alexander M. Rush Thomas Wolf Douwe Kiela ELM 23 24 0 30 Sep 2022
KGxBoard: Explainable and Interactive Leaderboard for Evaluation of Knowledge Graph Completion Models Haris Widjaja Kiril Gashteovski Wiem Ben-Rim Pengfei Liu Christopher Malon Daniel Ruffinelli Carolin (Haas) Lawrence Graham Neubig 22 5 0 23 Aug 2022
Polyglot Prompt: Multilingual Multitask PrompTraining Jinlan Fu See-Kiong Ng Pengfei Liu 29 7 0 29 Apr 2022
Towards Explainable Evaluation Metrics for Natural Language Generation Christoph Leiter Piyawat Lertvittayakumjorn M. Fomicheva Wei-Ye Zhao Yang Gao Steffen Eger AAML ELM 24 20 0 21 Mar 2022
CLICKER: A Computational LInguistics Classification Scheme for Educational Resources Swapnil Hingmire Irene Z Li Rena Kawamura Benjamin Chen Alexander R. Fabbri ... Wai Pan Wong Vanessa Yan Richard Zhou Girish Keshav Palshikar Dragomir R. Radev 16 1 0 16 Dec 2021
MWPToolkit: An Open-Source Framework for Deep Learning-Based Math Word Problem Solvers Yihuai Lan Lei Wang Qiyuan Zhang Yunshi Lan B. Dai Yan Wang Dongxiang Zhang Ee-Peng Lim AIMat 19 71 0 02 Sep 2021
A Primer on Pretrained Multilingual Language Models Sumanth Doddapaneni Gowtham Ramesh Mitesh M. Khapra Anoop Kunchukuttan Pratyush Kumar LRM 43 74 0 01 Jul 2021
BARTScore: Evaluating Generated Text as Text Generation Weizhe Yuan Graham Neubig Pengfei Liu 11 808 0 22 Jun 2021
XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation Sebastian Ruder Noah Constant Jan A. Botha Aditya Siddhant Orhan Firat ... Pengfei Liu Junjie Hu Dan Garrette Graham Neubig Melvin Johnson ELM AAML LRM 15 184 0 15 Apr 2021
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics Sebastian Gehrmann Tosin P. Adewumi Karmanya Aggarwal Pawan Sasanka Ammanamanchi Aremu Anuoluwapo ... Nishant Subramani Wei-ping Xu Diyi Yang Akhila Yerukola Jiawei Zhou VLM 254 285 0 02 Feb 2021
Text Summarization with Pretrained Encoders Yang Liu Mirella Lapata MILM 258 1,432 0 22 Aug 2019
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,959 0 20 Apr 2018
Neural Architecture Search with Reinforcement Learning Barret Zoph Quoc V. Le 271 5,329 0 05 Nov 2016
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,746 0 26 Sep 2016