Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators

11 October 2023

Zeyu Qin

Papers citing "Beyond Factuality: A Comprehensive Evaluation of Large Language Models as Knowledge Generators"

34 / 34 papers shown

Title
CoheMark: A Novel Sentence-Level Watermark for Enhanced Text Quality Junyan Zhang Shuliang Liu Aiwei Liu Yubo Gao Jiajun Li Xiaojie Gu Xuming Hu WaLM 63 2 0 24 Apr 2025
Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR Yuyao Zhang Tianyi Liang Xinyue Huang Erfei Cui Xu Guo Pei Chu Chenhui Li Ru Zhang Wenhai Wang Gongshen Liu 129 0 0 15 Apr 2025
LITE: LLM-Impelled efficient Taxonomy Evaluation Lin Zhang Zhouhong Gu Suhang Zheng Tao Wang Tianyu Li Hongwei Feng Yanghua Xiao 33 0 0 02 Apr 2025
ECKGBench: Benchmarking Large Language Models in E-commerce Leveraging Knowledge Graph Langming Liu Haibin Chen Yuhao Wang Yujin Yuan Shilei Liu Wenbo Su Xiangyu Zhao Bo Zheng RALM 63 0 0 20 Mar 2025
DeFine: A Decomposed and Fine-Grained Annotated Dataset for Long-form Article Generation Ming Wang Fang Wang Minghao Hu Li He Haiyang Wang ... Li Li Zhunchen Luo Wei Luo Xiaoying Bai Guotong Geng 71 0 0 10 Mar 2025
Evaluating LLMs' Assessment of Mixed-Context Hallucination Through the Lens of Summarization Siya Qi Rui Cao Yulan He Zheng Yuan HILM 61 0 0 03 Mar 2025
How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild Saad Obaid ul Islam Anne Lauscher Goran Glavas HILM LRM 122 1 0 21 Feb 2025
Evaluating Self-Generated Documents for Enhancing Retrieval-Augmented Generation with Large Language Models Jiatao Li Xinyu Hu Xunjian Yin Xiaojun Wan RALM 53 0 0 17 Oct 2024
Insight Over Sight? Exploring the Vision-Knowledge Conflicts in Multimodal LLMs Xiaoyuan Liu Wenxuan Wang Youliang Yuan Jen-tse Huang Qiuzhi Liu Pinjia He Zhaopeng Tu 131 1 0 10 Oct 2024
Beyond Persuasion: Towards Conversational Recommender System with Credible Explanations Peixin Qin Chen Huang Yang Deng Wenqiang Lei Tat-Seng Chua LRM 27 3 0 22 Sep 2024
LLMAEL: Large Language Models are Good Context Augmenters for Entity Linking Amy Xin Y. Qi Zijun Yao Fangwei Zhu Kaisheng Zeng Xu Bin Lei Hou Juanzi Li 39 5 0 04 Jul 2024
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models Xinrong Zhang Yingfa Chen Shengding Hu Xu Han Zihang Xu Yuanwei Xu Weilin Zhao Maosong Sun Zhiyuan Liu 32 9 0 22 Jun 2024
Generate-then-Ground in Retrieval-Augmented Generation for Multi-hop Question Answering Zhengliang Shi Shuo Zhang Weiwei Sun Shen Gao Pengjie Ren Zhumin Chen Zhaochun Ren RALM 43 28 0 21 Jun 2024
An Analysis of Multilingual FActScore Kim Trong Vu Michael Krumdick Varshini Reddy Franck Dernoncourt Viet Dac Lai HILM 51 0 0 20 Jun 2024
HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation Wen Luo Tianshu Shen Wei Li Guangyue Peng Richeng Xuan Houfeng Wang Xi Yang HILM 33 11 0 11 Jun 2024
Can We Catch the Elephant? A Survey of the Evolvement of Hallucination Evaluation on Natural Language Generation Siya Qi Yulan He Zheng Yuan LRM HILM 43 1 0 18 Apr 2024
Knowledge Conflicts for LLMs: A Survey Rongwu Xu Zehan Qi Zhijiang Guo Cunxiang Wang Hongru Wang Yue Zhang Wei Xu 200 94 0 13 Mar 2024
ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models Jio Oh Soyeon Kim Junseok Seo Jindong Wang Ruochen Xu Xing Xie Steven Euijong Whang 38 1 0 08 Mar 2024
HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild Zhiying Zhu Yiming Yang Zhiqing Sun HILM VLM 46 14 0 07 Mar 2024
DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models Kedi Chen Qin Chen Jie Zhou Yishen He Liang He HILM 38 1 0 01 Mar 2024
KnowTuning: Knowledge-aware Fine-tuning for Large Language Models Yougang Lyu Lingyong Yan Shuaiqiang Wang Haibo Shi Dawei Yin Pengjie Ren Zhumin Chen Maarten de Rijke Zhaochun Ren 24 5 0 17 Feb 2024
Blinded by Generated Contexts: How Language Models Merge Generated and Retrieved Contexts When Knowledge Conflicts? Hexiang Tan Fei Sun Wanli Yang Yuanzhuo Wang Qi Cao Xueqi Cheng 33 13 0 22 Jan 2024
A Survey of the Evolution of Language Model-Based Dialogue Systems Hongru Wang Lingzhi Wang Yiming Du Liang Chen Jing Zhou Yufei Wang Kam-Fai Wong LRM 61 20 0 28 Nov 2023
WatME: Towards Lossless Watermarking Through Lexical Redundancy Liang Chen Yatao Bian Yang Deng Deng Cai Shuaiyi Li Peilin Zhao Kam-Fai Wong WaLM 40 6 0 16 Nov 2023
Improving Factual Consistency for Knowledge-Grounded Dialogue Systems via Knowledge Enhancement and Alignment Boyang Xue Weichao Wang Hongru Wang Fei Mi Rui Wang Yasheng Wang Lifeng Shang Xin Jiang Qun Liu Kam-Fai Wong KELM HILM 216 15 0 12 Oct 2023
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity Cunxiang Wang Xiaoze Liu Yuanhao Yue Xiangru Tang Tianhang Zhang ... Linyi Yang Jindong Wang Xing Xie Zheng-Wei Zhang Yue Zhang HILM KELM 51 184 0 11 Oct 2023
Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models Wenxuan Ding Shangbin Feng Yuhan Liu Zhaoxuan Tan Vidhisha Balachandran Tianxing He Yulia Tsvetkov LRM 36 2 0 02 Oct 2023
Large Language Models for Information Retrieval: A Survey Yutao Zhu Huaying Yuan Shuting Wang Jiongnan Liu Wenhan Liu Chenlong Deng Haonan Chen Zhicheng Dou Ji-Rong Wen KELM 57 286 0 14 Aug 2023
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models Potsawee Manakul Adian Liusie Mark J. F. Gales HILM LRM 152 391 0 15 Mar 2023
Generate rather than Retrieve: Large Language Models are Strong Context Generators W. Yu Dan Iter Shuohang Wang Yichong Xu Mingxuan Ju Soumya Sanyal Chenguang Zhu Michael Zeng Meng Jiang RALM AIMat 229 321 0 21 Sep 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 328 11,953 0 04 Mar 2022
Rethinking Self-Supervision Objectives for Generalizable Coherence Modeling Prathyusha Jwalapuram Shafiq R. Joty Xiang Lin 76 15 0 14 Oct 2021
Internet-Augmented Dialogue Generation M. Komeili Kurt Shuster Jason Weston RALM 244 280 0 15 Jul 2021
Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics Artidoro Pagnoni Vidhisha Balachandran Yulia Tsvetkov HILM 231 305 0 27 Apr 2021