FactCHD: Benchmarking Fact-Conflicting Hallucination Detection

18 October 2023

Ningyu Zhang

Huajun Chen

Papers citing "FactCHD: Benchmarking Fact-Conflicting Hallucination Detection"

40 / 40 papers shown

Title
SelfCheckAgent: Zero-Resource Hallucination Detection in Generative Large Language Models Diyana Muhammed Gollam Rabby Sören Auer LLMAG HILM 114 0 0 03 Feb 2025
MLLM can see? Dynamic Correction Decoding for Hallucination Mitigation Chenxi Wang Xiang Chen N. Zhang Bozhong Tian Haoming Xu Shumin Deng Ningyu Zhang MLLM LRM 173 9 0 15 Oct 2024
FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" Yifei Ming Senthil Purushwalkam Shrey Pandit Zixuan Ke Xuan-Phi Nguyen Caiming Xiong Shafiq Joty HILM 201 23 0 30 Sep 2024
C-RAG: Certified Generation Risks for Retrieval-Augmented Language Models Mintong Kang Nezihe Merve Gürel Ning Yu D. Song Yue Liu 203 22 0 05 Feb 2024
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity Cunxiang Wang Xiaoze Liu Yuanhao Yue Xiangru Tang Tianhang Zhang ... Linyi Yang Jindong Wang Xing Xie Zheng Zhang Yue Zhang HILM KELM 90 197 0 11 Oct 2023
Do Large Language Models Know about Facts? Xuming Hu Junzhe Chen Xiaochuan Li Yingxin Lai Lijie Wen Philip S. Yu Zhijiang Guo HILM KELM 54 52 0 08 Oct 2023
Resolving Knowledge Conflicts in Large Language Models Yike Wang Shangbin Feng Heng Wang Weijia Shi Vidhisha Balachandran Tianxing He Yulia Tsvetkov 88 17 0 02 Oct 2023
Cognitive Mirage: A Review of Hallucinations in Large Language Models Hongbin Ye Tong Liu Aijia Zhang Wei Hua Weiqiang Jia HILM 74 77 0 13 Sep 2023
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models Yue Zhang Yafu Li Leyang Cui Deng Cai Lemao Liu ... Longyue Wang Anh Tuan Luu Wei Bi Freda Shi Shuming Shi RALM LRM HILM 82 557 0 03 Sep 2023
FacTool: Factuality Detection in Generative AI -- A Tool Augmented Framework for Multi-Task and Multi-Domain Scenarios Ethan Chern Steffi Chern Shiqi Chen Weizhe Yuan Kehua Feng Chunting Zhou Junxian He Graham Neubig Pengfei Liu HILM 46 203 0 25 Jul 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 267 11,791 0 18 Jul 2023
Generating Benchmarks for Factuality Evaluation of Language Models Dor Muhlgay Ori Ram Inbal Magar Yoav Levine Nir Ratner Yonatan Belinkov Omri Abend Kevin Leyton-Brown Amnon Shashua Y. Shoham HILM 53 91 0 13 Jul 2023
Structure Guided Multi-modal Pre-trained Transformer for Knowledge Graph Reasoning K. Liang Sihang Zhou Yue Liu Lingyuan Meng Meng Liu Xinwang Liu 81 15 0 06 Jul 2023
Do Large Language Models Know What They Don't Know? Zhangyue Yin Qiushi Sun Qipeng Guo Jiawen Wu Xipeng Qiu Xuanjing Huang ELM AI4MH 65 160 0 29 May 2023
Editing Large Language Models: Problems, Methods, and Opportunities Yunzhi Yao Peng Wang Bo Tian Shuyang Cheng Zhoubo Li Shumin Deng Huajun Chen Ningyu Zhang KELM 67 304 0 22 May 2023
HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models Junyi Li Xiaoxue Cheng Wayne Xin Zhao J. Nie Ji-Rong Wen HILM VLM 66 243 0 19 May 2023
Tool Learning with Foundation Models Yujia Qin Shengding Hu Yankai Lin Weize Chen Ning Ding ... Cheng Yang Tongshuang Wu Heng Ji Zhiyuan Liu Maosong Sun 84 209 0 17 Apr 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 1.3K 13,100 0 27 Feb 2023
Diving Deep into Modes of Fact Hallucinations in Dialogue Systems Souvik Das Sougata Saha Rohini Srihari HILM 33 33 0 11 Jan 2023
Knowledge Graph Contrastive Learning Based on Relation-Symmetrical Structure K. Liang Yue Liu Sihang Zhou Wenxuan Tu Yi Wen Xihong Yang Xiang Dong Xinwang Liu 85 81 0 19 Nov 2022
Faithful Reasoning Using Large Language Models Antonia Creswell Murray Shanahan ReLM LRM 60 124 0 30 Aug 2022
CoVERT: A Corpus of Fact-checked Biomedical COVID-19 Tweets I. Mohr Amelie Wuhrl Roman Klinger OffRL 44 28 0 26 Apr 2022
FaithDial: A Faithful Benchmark for Information-Seeking Dialogue Nouha Dziri Ehsan Kamalloo Sivan Milton Osmar Zaiane Mo Yu Edoardo Ponti Siva Reddy HILM 102 90 0 22 Apr 2022
Survey of Hallucination in Natural Language Generation Ziwei Ji Nayeon Lee Rita Frieske Tiezheng Yu D. Su ... Delong Chen Wenliang Dai Ho Shu Chan Andrea Madotto Pascale Fung HILM LRM 189 2,356 0 08 Feb 2022
Measuring Attribution in Natural Language Generation Models Hannah Rashkin Vitaly Nikolaev Matthew Lamm Lora Aroyo Michael Collins Dipanjan Das Slav Petrov Gaurav Singh Tomar Iulia Turc David Reitter 78 182 0 23 Dec 2021
DialFact: A Benchmark for Fact-Checking in Dialogue Prakhar Gupta Chien-Sheng Wu Wenhao Liu Caiming Xiong HILM 48 63 0 15 Oct 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 371 10,273 0 17 Jun 2021
FEVEROUS: Fact Extraction and VERification Over Unstructured and Structured information Rami Aly Zhijiang Guo Michael Schlichtkrull James Thorne Andreas Vlachos Christos Christodoulopoulos O. Cocarascu Arpit Mittal HILM 69 181 0 10 Jun 2021
COVID-Fact: Fact Extraction and Verification of Real-World Claims on COVID-19 Pandemic Arkadiy Saakyan Tuhin Chakrabarty Smaranda Muresan HILM 48 119 0 07 Jun 2021
Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics Artidoro Pagnoni Vidhisha Balachandran Yulia Tsvetkov HILM 260 310 0 27 Apr 2021
KnowPrompt: Knowledge-aware Prompt-tuning with Synergistic Optimization for Relation Extraction Xiang Chen Ningyu Zhang Xin Xie Shumin Deng Yunzhi Yao Chuanqi Tan Fei Huang Luo Si Huajun Chen 89 413 0 15 Apr 2021
Retrieval Augmentation Reduces Hallucination in Conversation Kurt Shuster Spencer Poff Moya Chen Douwe Kiela Jason Weston HILM 88 730 0 15 Apr 2021
CLIMATE-FEVER: A Dataset for Verification of Real-World Climate Claims Thomas Diggelmann Jordan L. Boyd-Graber Jannis Bulian Massimiliano Ciaramita Markus Leippold 79 203 0 01 Dec 2020
HoVer: A Dataset for Many-Hop Fact Extraction And Claim Verification Yichen Jiang Shikha Bordia Zheng Zhong Charles Dognin M. Singh Joey Tianyi Zhou 80 155 0 05 Nov 2020
Fact or Fiction: Verifying Scientific Claims David Wadden Shanchuan Lin Kyle Lo Lucy Lu Wang Madeleine van Zuylen Arman Cohan Hannaneh Hajishirzi HAI 113 452 0 30 Apr 2020
Evaluating the Factual Consistency of Abstractive Text Summarization Wojciech Kry'sciñski Bryan McCann Caiming Xiong R. Socher HILM 101 742 0 28 Oct 2019
TabFact: A Large-scale Dataset for Table-based Fact Verification Wenhu Chen Hongmin Wang Jianshu Chen Yunkai Zhang Hong Wang Shiyang Li Xiyou Zhou William Yang Wang LMTD 86 501 0 05 Sep 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 1.2K 12,129 0 27 Aug 2019
Handling Divergent Reference Texts when Evaluating Table-to-Text Generation Bhuwan Dhingra Manaal Faruqui Ankur P. Parikh Ming-Wei Chang Dipanjan Das William W. Cohen 71 196 0 03 Jun 2019
FEVER: a large-scale dataset for Fact Extraction and VERification James Thorne Andreas Vlachos Christos Christodoulopoulos Arpit Mittal HILM 121 1,646 0 14 Mar 2018