v1v2 (latest)

ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretability

15 October 2024

Yang Song

Papers citing "ReDeEP: Detecting Hallucination in Retrieval-Augmented Generation via Mechanistic Interpretability"

50 / 53 papers shown

Title
RePCS: Diagnosing Data Memorization in LLM-Powered Retrieval-Augmented Generation Le Vu Anh Nguyen Viet Anh Mehmet Dik Luong Van Nghia 43 0 0 18 Jun 2025
Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation Lexiang Tang Xianwei Zhuang Bang Yang Zhiyuan Hu Hongxiang Li Lu Ma Jinghan Ru Yuexian Zou 35 0 0 14 Jun 2025
ClueAnchor: Clue-Anchored Knowledge Reasoning Exploration and Optimization for Retrieval-Augmented Generation Hao Chen Yukun Yan Sen Mei Wanxiang Che Zhenghao Liu ... Yuchun Fan Pengcheng Huang Qiushi Xiong Zhiyuan Liu Maosong Sun LRM 46 0 0 30 May 2025
Faithfulness-Aware Uncertainty Quantification for Fact-Checking the Output of Retrieval Augmented Generation Ekaterina Fadeeva Aleksandr Rubashevskii Roman Vashurin Shehzaad Dhuliawala Artem Shelmanov Timothy Baldwin Preslav Nakov Mrinmaya Sachan Maxim Panov HILM 77 0 0 27 May 2025
Osiris: A Lightweight Open-Source Hallucination Detection System Alex Shan John Bauer Christopher D. Manning HILM VLM 167 0 0 07 May 2025
Exploiting Contextual Knowledge in LLMs through V-usable Information based Layer Enhancement Xiaowei Yuan Zhao Yang Ziyang Huang Yucheng Wang Siqi Fan Yiming Ju Jun Zhao Kang Liu 81 0 0 22 Apr 2025
Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey Aoran Gan Hao Yu Kai Zhang Qi Liu Wenyu Yan Zhenya Huang Shiwei Tong Guoping Hu RALM 3DV 92 1 0 21 Apr 2025
CDF-RAG: Causal Dynamic Feedback for Adaptive Retrieval-Augmented Generation Elahe Khatibi Ziyu Wang Amir M. Rahmani 98 1 0 17 Apr 2025
An Analysis of Decoding Methods for LLM-based Agents for Faithful Multi-Hop Question Answering Alexander Murphy Mohd Sanad Zaki Rizvi Aden Haussmann Ping Nie Guifu Liu Aryo Pradipta Gema Pasquale Minervini 105 0 0 30 Mar 2025
Investigating Retrieval-Augmented Generation in Quranic Studies: A Study of 13 Open-Source Large Language Models Zahra Khalila Arbi Haza Nasution Winda Monika Aytug Onan Yohei Murakami Yasir Bin Ismail Radi Noor Mohammad Osmani RALM 124 1 0 20 Mar 2025
A Survey on Uncertainty Quantification of Large Language Models: Taxonomy, Open Research Challenges, and Future Directions Ola Shorinwa Zhiting Mei Justin Lidard Allen Z. Ren Anirudha Majumdar HILM LRM 158 19 0 07 Dec 2024
Large Language Models as Foundations for Next-Gen Dense Retrieval: A Comprehensive Empirical Assessment Kun Luo Minghao Qin Zheng Liu Shitao Xiao Jun Zhao Kang Liu 76 13 0 22 Aug 2024
Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs Jannik Kossen Jiatong Han Muhammed Razzak Lisa Schut Shreshth A. Malik Yarin Gal HILM 117 54 0 22 Jun 2024
From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries Hitesh Wadhwa Rahul Seetharaman Somyaa Aggarwal Reshmi Ghosh Samyadeep Basu Soundararajan Srinivasan Wenlong Zhao Shreyas Chaudhari Ehsan Aghazadeh RALM 84 6 0 18 Jun 2024
SampleAttention: Near-Lossless Acceleration of Long Context LLM Inference with Adaptive Structured Sparse Attention Qianchao Zhu Jiangfei Duan Chang Chen Siran Liu Xiuhong Li ... Huanqi Cao Xiao Chuanfu Xingcheng Zhang Dahua Lin Chao Yang 110 17 0 17 Jun 2024
UniBias: Unveiling and Mitigating LLM Bias through Internal Attention and FFN Manipulation Hanzhang Zhou Zijian Feng Zixiao Zhu Junlang Qian Kezhi Mao 92 10 0 31 May 2024
Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools Varun Magesh Faiz Surani Matthew Dahl Mirac Suzgun Christopher D. Manning Daniel E. Ho HILM ELM AILaw 77 80 0 30 May 2024
RefChecker: Reference-based Fine-grained Hallucination Checker and Benchmark for Large Language Models Xiangkun Hu Dongyu Ru Lin Qiu Qipeng Guo Tianhang Zhang Yang Xu Yun Luo Pengfei Liu Yue Zhang Zheng Zhang HILM LRM 98 9 0 23 May 2024
A Survey on RAG Meeting LLMs: Towards Retrieval-Augmented Large Language Models Wenqi Fan Yujuan Ding Liang-bo Ning Shijie Wang Hengyun Li D. Yin Tat-Seng Chua Qing Li RALM 3DV 170 260 0 10 May 2024
Retrieval Head Mechanistically Explains Long-Context Factuality Wenhao Wu Yizhong Wang Guangxuan Xiao Hao-Chun Peng Yao Fu LRM 105 84 0 24 Apr 2024
Knowledge Conflicts for LLMs: A Survey Rongwu Xu Zehan Qi Zhijiang Guo Cunxiang Wang Hongru Wang Yue Zhang Wei Xu 313 122 0 13 Mar 2024
Information Flow Routes: Automatically Interpreting Language Models at Scale Javier Ferrando Elena Voita 119 41 0 27 Feb 2024
INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection Chao Chen Kai-Chun Liu Ze Chen Yi Gu Yue-bo Wu Mingyuan Tao Zhihang Fu Jieping Ye HILM 138 111 0 06 Feb 2024
The Chronicles of RAG: The Retriever, the Chunk and the Generator Paulo Finardi Leonardo Avila Rodrigo Castaldoni P. Gengo Celio H. N. Larcher Marcos Piau Pablo B. Costa Vinicius Fernandes Caridá RALM 95 30 0 15 Jan 2024
RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models Cheng Niu Yuanhao Wu Juno Zhu Siliang Xu Kashun Shum Randy Zhong Juntong Song Tong Zhang HILM 98 109 0 31 Dec 2023
Retrieval-Augmented Generation for Large Language Models: A Survey Yunfan Gao Yun Xiong Xinyu Gao Kangxiang Jia Jinliu Pan Yuxi Bi Yi Dai Jiawei Sun Meng Wang Haofen Wang 3DV RALM 341 1,846 1 18 Dec 2023
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus Tianhang Zhang Lin Qiu Qipeng Guo Cheng Deng Yue Zhang Zheng Zhang Cheng Zhou Xinbing Wang Luoyi Fu HILM 141 59 0 22 Nov 2023
A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions Lei Huang Weijiang Yu Weitao Ma Weihong Zhong Zhangyin Feng ... Qianglong Chen Weihua Peng Xiaocheng Feng Bing Qin Ting Liu LRM HILM 145 939 0 09 Nov 2023
Characterizing Mechanisms for Factual Recall in Language Models Qinan Yu Jack Merullo Ellie Pavlick KELM 112 29 0 24 Oct 2023
Chainpoll: A high efficacy method for LLM hallucination detection Robert Friel Atindriyo Sanyal LRM HILM 80 28 0 22 Oct 2023
Copy Suppression: Comprehensively Understanding an Attention Head Callum McDougall Arthur Conmy Cody Rushing Thomas McGrath Neel Nanda MILM 73 46 0 06 Oct 2023
Ragas: Automated Evaluation of Retrieval Augmented Generation ES Shahul Jithin James Luis Espinosa-Anke Steven Schockaert 150 205 0 26 Sep 2023
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models Yung-Sung Chuang Yujia Xie Hongyin Luo Yoon Kim James R. Glass Pengcheng He HILM 81 167 0 07 Sep 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 565 12,138 0 18 Jul 2023
H $_2$ O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models Zhenyu Zhang Ying Sheng Dinesh Manocha Tianlong Chen Lianmin Zheng ... Yuandong Tian Christopher Ré Clark W. Barrett Zhangyang Wang Beidi Chen VLM 224 315 0 24 Jun 2023
Inference-Time Intervention: Eliciting Truthful Answers from a Language Model Kenneth Li Oam Patel Fernanda Viégas Hanspeter Pfister Martin Wattenberg KELM HILM 195 584 0 06 Jun 2023
LM vs LM: Detecting Factual Errors via Cross Examination Roi Cohen May Hamri Mor Geva Amir Globerson HILM 126 144 0 22 May 2023
How does GPT-2 compute greater-than?: Interpreting mathematical abilities in a pre-trained language model Michael Hanna Ollie Liu Alexandre Variengien LRM 338 132 0 30 Apr 2023
The Internal State of an LLM Knows When It's Lying A. Azaria Tom Michael Mitchell HILM 383 348 0 26 Apr 2023
SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models Potsawee Manakul Adian Liusie Mark Gales HILM LRM 245 448 0 15 Mar 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.7K 14,870 0 15 Mar 2023
Out-of-Distribution Detection and Selective Generation for Conditional Language Models Jie Jessie Ren Jiaming Luo Yao-Min Zhao Kundan Krishna Mohammad Saleh Balaji Lakshminarayanan Peter J. Liu OODD 129 114 0 30 Sep 2022
Confident Adaptive Language Modeling Tal Schuster Adam Fisch Jai Gupta Mostafa Dehghani Dara Bahri Vinh Q. Tran Yi Tay Donald Metzler 155 170 0 14 Jul 2022
Language Models (Mostly) Know What They Know Saurav Kadavath Tom Conerly Amanda Askell T. Henighan Dawn Drain ... Nicholas Joseph Benjamin Mann Sam McCandlish C. Olah Jared Kaplan ELM 150 836 0 11 Jul 2022
Locating and Editing Factual Associations in GPT Kevin Meng David Bau A. Andonian Yonatan Belinkov KELM 274 1,393 0 10 Feb 2022
Incorporating Residual and Normalization Layers into Analysis of Masked Language Models Goro Kobayashi Tatsuki Kuribayashi Sho Yokoi Kentaro Inui 240 49 0 15 Sep 2021
Knowledge Neurons in Pretrained Transformers Damai Dai Li Dong Y. Hao Zhifang Sui Baobao Chang Furu Wei KELM MU 180 466 0 18 Apr 2021
Retrieval Augmentation Reduces Hallucination in Conversation Kurt Shuster Spencer Poff Moya Chen Douwe Kiela Jason Weston HILM 127 753 0 15 Apr 2021
Transformer Feed-Forward Layers Are Key-Value Memories Mor Geva R. Schuster Jonathan Berant Omer Levy KELM 212 851 0 29 Dec 2020
Energy-based Out-of-distribution Detection Weitang Liu Xiaoyun Wang John Douglas Owens Yixuan Li OODD 391 1,385 0 08 Oct 2020