Title
HalluLens: LLM Hallucination Benchmark Yejin Bang Ziwei Ji Alan Schelten Anthony Hartshorn Tara Fowler Cheng Zhang Nicola Cancedda Pascale Fung HILM 92 1 0 24 Apr 2025
OAEI-LLM-T: A TBox Benchmark Dataset for Understanding Large Language Model Hallucinations in Ontology Matching Zhangcheng Qiang Kerry Taylor Weiqing Wang Jing Jiang 57 0 0 25 Mar 2025
OnionEval: An Unified Evaluation of Fact-conflicting Hallucination for Small-Large Language Models Chongren Sun Y. Li Di Wu Benoit Boulet HILM LRM 90 1 0 22 Jan 2025
Iterative Tree Analysis for Medical Critics Zenan Huang Mingwei Li Zheng Zhou Youxin Jiang 154 0 0 18 Jan 2025
Measuring short-form factuality in large language models Jason W. Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman W. Fedus ELM KELM HILM 48 46 0 07 Nov 2024
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models Yuzhe Gu Ziwei Ji Wenwei Zhang Chengqi Lyu Dahua Lin Kai Chen HILM 42 5 0 05 Jul 2024
Methodology of Adapting Large English Language Models for Specific Cultural Contexts Wenjing Zhang Siqi Xiao Xuejiao Lei Rongjia Du Huazheng Zhang Meijuan An Bikun Yang Zhaoxiang Liu Kai Wang Shiguo Lian ALM 24 0 0 26 Jun 2024
DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation A. B. M. A. Rahman Saeed Anwar Muhammad Usman Ajmal Mian HILM 44 2 0 13 Jun 2024
HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation Wen Luo Tianshu Shen Wei Li Guangyue Peng Richeng Xuan Houfeng Wang Xi Yang HILM 33 11 0 11 Jun 2024
Safeguarding Large Language Models: A Survey Yi Dong Ronghui Mu Yanghao Zhang Siqi Sun Tianle Zhang ... Yi Qi Jinwei Hu Jie Meng Saddek Bensalem Xiaowei Huang OffRL KELM AILaw 45 19 0 03 Jun 2024
$C$^{3}$Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models$ C $^{3}$ Bench: A Comprehensive Classical Chinese Understanding Benchmark for Large Language Models Jiahuan Cao Yongxin Shi Dezhi Peng Yang Liu Lianwen Jin ELM 39 0 0 28 May 2024
Exploring the LLM Journey from Cognition to Expression with Linear Representations Yuzi Yan J. Li Yipin Zhang Dong Yan 49 1 0 27 May 2024
CodeHalu: Investigating Code Hallucinations in LLMs via Execution-based Verification Yuchen Tian Weixiang Yan Qian Yang Xuandong Zhao Qian Chen Ziyang Luo Lei Ma Lei Ma Dawn Song 43 7 0 30 Apr 2024
From Matching to Generation: A Survey on Generative Information Retrieval Xiaoxi Li Jiajie Jin Yujia Zhou Yuyao Zhang Peitian Zhang Yutao Zhu Zhicheng Dou 3DV 84 46 0 23 Apr 2024
ERBench: An Entity-Relationship based Automatically Verifiable Hallucination Benchmark for Large Language Models Jio Oh Soyeon Kim Junseok Seo Jindong Wang Ruochen Xu Xing Xie Steven Euijong Whang 41 1 0 08 Mar 2024
UrbanKGent: A Unified Large Language Model Agent Framework for Urban Knowledge Graph Construction Yansong Ning Hao Liu LLMAG 31 2 0 10 Feb 2024
Can AI Assistants Know What They Don't Know? Qinyuan Cheng Tianxiang Sun Xiangyang Liu Wenwei Zhang Zhangyue Yin Shimin Li Linyang Li Zhengfu He Kai Chen Xipeng Qiu 41 23 0 24 Jan 2024
UHGEval: Benchmarking the Hallucination of Chinese Large Language Models via Unconstrained Generation Xun Liang Shichao Song Pengnian Qi Zhiyu Li Zhiyu Li ... Zhaohui Wy Dawei He Peng Cheng Zhonghao Wang Haiying Deng HILM 34 19 0 26 Nov 2023
Improving Contrastive Learning of Sentence Embeddings from AI Feedback M. Abouheaf W. Gueaieb Md. Suruz Miah D. Spinello Xipeng Qiu 59 37 0 03 May 2023
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models Potsawee Manakul Adian Liusie Mark Gales HILM LRM 152 396 0 15 Mar 2023
GLM-130B: An Open Bilingual Pre-trained Model Aohan Zeng Xiao Liu Zhengxiao Du Zihan Wang Hanyu Lai ... Jidong Zhai Wenguang Chen Peng Zhang Yuxiao Dong Jie Tang BDL LRM 253 1,073 0 05 Oct 2022
Training language models to follow instructions with human feedback Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright ... Amanda Askell Peter Welinder Paul Christiano Jan Leike Ryan J. Lowe OSLM ALM 366 12,003 0 04 Mar 2022
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 413 8,559 0 28 Jan 2022
Truthful AI: Developing and governing AI that does not lie Owain Evans Owen Cotton-Barratt Lukas Finnveden Adam Bales Avital Balwit Peter Wills Luca Righetti William Saunders HILM 236 110 0 13 Oct 2021
Pre-trained Models for Natural Language Processing: A Survey Xipeng Qiu Tianxiang Sun Yige Xu Yunfan Shao Ning Dai Xuanjing Huang LM&MA VLM 243 1,452 0 18 Mar 2020