Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs

1 November 2023

Papers citing "Are Large Language Models Reliable Judges? A Study on the Factuality Evaluation Capabilities of LLMs"

8 / 8 papers shown

Title
Better To Ask in English? Evaluating Factual Accuracy of Multilingual LLMs in English and Low-Resource Languages Pritika Rohera Chaitrali Ginimav Gayatri Sawant Raviraj Joshi 55 0 0 28 Apr 2025
LLMs Can Generate a Better Answer by Aggregating Their Own Responses Zichong Li Xinyu Feng Yuheng Cai Zixuan Zhang Tianyi Liu Chen Liang Weizhu Chen Haoyu Wang Tiejun Zhao LRM 62 1 0 06 Mar 2025
A Systematic Survey and Critical Review on Evaluating Large Language Models: Challenges, Limitations, and Recommendations Md Tahmid Rahman Laskar Sawsan Alqahtani M Saiful Bari Mizanur Rahman Mohammad Abdullah Matin Khan ... Chee Wei Tan Md. Rizwan Parvez Enamul Hoque Shafiq Joty Jimmy Huang ELM ALM 46 28 0 04 Jul 2024
LLM-based NLG Evaluation: Current Status and Challenges Mingqi Gao Xinyu Hu Jie Ruan Xiao Pu Xiaojun Wan ELM LM&MA 78 35 0 02 Feb 2024
Improving Factual Consistency in Summarization with Compression-Based Post-Editing Alexander R. Fabbri Prafulla Kumar Choubey Jesse Vig Chien-Sheng Wu Caiming Xiong HILM KELM 77 17 0 11 Nov 2022
The Factual Inconsistency Problem in Abstractive Text Summarization: A Survey Yi-Chong Huang Xiachong Feng Xiaocheng Feng Bing Qin HILM 138 107 0 30 Apr 2021
Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics Artidoro Pagnoni Vidhisha Balachandran Yulia Tsvetkov HILM 235 307 0 27 Apr 2021
Text Summarization with Pretrained Encoders Yang Liu Mirella Lapata MILM 267 1,437 0 22 Aug 2019