Title
G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment Yang Liu Dan Iter Yichong Xu Shuohang Wang Ruochen Xu Chenguang Zhu ELM ALM LM&MA 231 1,215 0 29 Mar 2023
ChatGPT as a Factual Inconsistency Evaluator for Text Summarization Zheheng Luo Qianqian Xie Sophia Ananiadou ELM HILM ALM 92 80 0 27 Mar 2023
Exploring ChatGPT's Ability to Rank Content: A Preliminary Study on Consistency with Human Preferences Yunjie Ji Yan Gong Yiping Peng Chao Ni Peiyan Sun Dongyu Pan Baochang Ma Xiangang Li ELM ALM AI4MH 76 38 0 14 Mar 2023
Zero-Shot Cross-Lingual Summarization via Large Language Models Jiaan Wang Yunlong Liang Fandong Meng Beiqi Zou Zhixu Li Jianfeng Qu Jie Zhou ELM 139 31 0 28 Feb 2023
DocAsRef: An Empirical Study on Repurposing Reference-Based Summary Quality Metrics Reference-Freely F. S. Bao Ruixuan Tu Ge Luo Yinfei Yang Hebi Li Minghui Qiu Youbiao He Cen Chen 75 2 0 20 Dec 2022
Evaluation of Question Answering Systems: Complexity of judging a natural language Amer Farea Zhen Yang Kien Duong Nadeesha Perera F. Emmert-Streib ELM 57 3 0 10 Sep 2022
Exploring Dense Retrieval for Dialogue Response Selection Tian Lan Deng Cai Yan Wang Yixuan Su Heyan Huang Xian-Ling Mao 176 19 0 13 Oct 2021