v1v2 (latest)

Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation

27 May 2025

Ekaterina Fadeeva

Aleksandr Rubashevskii

Papers citing "Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation"

25 / 25 papers shown

Title
Retrieval-Augmented Generation with Conflicting Evidence Han Wang Archiki Prasad Elias Stengel-Eskin Joey Tianyi Zhou RALM 107 7 0 17 Apr 2025
Adaptive Retrieval Without Self-Knowledge? Bringing Uncertainty Back Home Viktor Moskvoretskii M. Lysyuk Mikhail Salnikov Nikolay Ivanov Sergey Pletenev Daria Galimzianova Nikita Krayko Vasily Konovalov Irina Nikishina Alexander Panchenko RALM 142 7 0 24 Feb 2025
RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems Robert Friel Masha Belyi Atindriyo Sanyal 126 28 0 17 Jan 2025
Measuring short-form factuality in large language models Jason W. Wei Nguyen Karina Hyung Won Chung Yunxin Joy Jiao Spencer Papay Amelia Glaese John Schulman W. Fedus ELM KELM HILM 66 77 0 07 Nov 2024
ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretability Zhongxiang Sun Xiaoxue Zang Kai Zheng Yang Song Jun Xu Xiao Zhang Weijie Yu Yang Song Han Li 106 15 0 15 Oct 2024
LRP4RAG: Detecting Hallucinations in Retrieval-Augmented Generation via Layer-wise Relevance Propagation Haichuan Hu Yuhan Sun Quanjun Zhang 90 5 0 28 Aug 2024
Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps Yung-Sung Chuang Linlu Qiu Cheng-Yu Hsieh Ranjay Krishna Yoon Kim James R. Glass HILM 64 46 0 09 Jul 2024
A Factuality and Diversity Reconciled Decoding Method for Knowledge-Grounded Dialogue Generation Chenxu Yang Zheng Lin Chong Tian Liang Pang Lanrui Wang Zhengyang Tong Qirong Ho Yanan Cao Weiping Wang HILM 71 1 0 08 Jul 2024
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph Roman Vashurin Ekaterina Fadeeva Artem Vazhentsev Akim Tsvigun Daniil Vasilev ... Timothy Baldwin Timothy Baldwin Maxim Panov Artem Shelmanov Artem Shelmanov HILM 125 28 0 21 Jun 2024
Fact-Checking the Output of Large Language Models via Token-Level Uncertainty Quantification Ekaterina Fadeeva Aleksandr Rubashevskii Artem Shelmanov Sergey Petrakov Haonan Li ... Gleb Kuzmin Alexander Panchenko Timothy Baldwin Preslav Nakov Maxim Panov HILM 82 56 0 07 Mar 2024
RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models Cheng Niu Yuanhao Wu Juno Zhu Siliang Xu Kashun Shum Randy Zhong Juntong Song Tong Zhang HILM 72 107 0 31 Dec 2023
Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers Yuxia Wang Revanth Gangi Reddy Zain Muhammad Mujahid Arnav Arora Aleksandr Rubashevskii ... Nadav Borenstein Aditya Pillai Isabelle Augenstein Iryna Gurevych Preslav Nakov HILM 91 42 0 15 Nov 2023
LM-Polygraph: Uncertainty Estimation for Language Models Ekaterina Fadeeva Roman Vashurin Akim Tsvigun Artem Vazhentsev Sergey Petrakov ... Elizaveta Goncharova Alexander Panchenko Maxim Panov Timothy Baldwin Artem Shelmanov 53 67 0 13 Nov 2023
Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models Jinhao Duan Hao-Ran Cheng Shiqi Wang Alex Zavalny Chenan Wang Renjing Xu B. Kailkhura Kaidi Xu 97 49 0 03 Jul 2023
AlignScore: Evaluating Factual Consistency with a Unified Alignment Function Yuheng Zha Yichi Yang Ruichen Li Zhiting Hu HILM 73 207 0 26 May 2023
Large Language Models Can Be Easily Distracted by Irrelevant Context Freda Shi Xinyun Chen Kanishka Misra Nathan Scales David Dohan Ed H. Chi Nathanael Scharli Denny Zhou ReLM RALM LRM 103 594 0 31 Jan 2023
When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories Alex Troy Mallen Akari Asai Victor Zhong Rajarshi Das Daniel Khashabi Hannaneh Hajishirzi RALM HILM KELM 107 602 0 20 Dec 2022
Language Models (Mostly) Know What They Know Saurav Kadavath Tom Conerly Amanda Askell T. Henighan Dawn Drain ... Nicholas Joseph Benjamin Mann Sam McCandlish C. Olah Jared Kaplan ELM 122 826 0 11 Jul 2022
FaithDial: A Faithful Benchmark for Information-Seeking Dialogue Nouha Dziri Ehsan Kamalloo Sivan Milton Osmar Zaiane Mo Yu Edoardo Ponti Siva Reddy HILM 115 90 0 22 Apr 2022
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing Pengcheng He Jianfeng Gao Weizhu Chen 169 1,204 0 18 Nov 2021
Retrieval Augmentation Reduces Hallucination in Conversation Kurt Shuster Spencer Poff Moya Chen Douwe Kiela Jason Weston HILM 95 741 0 15 Apr 2021
Unsupervised Quality Estimation for Neural Machine Translation M. Fomicheva Shuo Sun Lisa Yankovskaya Frédéric Blain Francisco Guzmán Mark Fishel Nikolaos Aletras Vishrav Chaudhary Lucia Specia UQLM 85 206 0 21 May 2020
Wizard of Wikipedia: Knowledge-Powered Conversational agents Emily Dinan Stephen Roller Kurt Shuster Angela Fan Michael Auli Jason Weston RALM KELM 131 950 0 03 Nov 2018
On Calibration of Modern Neural Networks Chuan Guo Geoff Pleiss Yu Sun Kilian Q. Weinberger UQCV 299 5,855 0 14 Jun 2017
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension Mandar Joshi Eunsol Choi Daniel S. Weld Luke Zettlemoyer RALM 213 2,676 0 09 May 2017