v1v2 (latest)

Calibrating Verbal Uncertainty as a Linear Feature to Reduce Hallucinations

18 March 2025

Ziwei Ji

L. Yu

Yeskendir Koishekenov

Papers citing "Calibrating Verbal Uncertainty as a Linear Feature to Reduce Hallucinations"

50 / 67 papers shown

Title
Don't Make It Up: Preserving Ignorance Awareness in LLM Fine-Tuning William F. Shen Xinchi Qiu Nicola Cancedda Nicholas D. Lane CLL 9 0 0 17 Jun 2025
AbstentionBench: Reasoning LLMs Fail on Unanswerable Questions Polina Kirichenko Mark Ibrahim Kamalika Chaudhuri Samuel J. Bell LRM 16 0 0 10 Jun 2025
MetaFaith: Faithful Natural Language Uncertainty Expression in LLMs Gabrielle Kaili-May Liu Gal Yona Avi Caciularu Idan Szpektor Tim G. J. Rudner Arman Cohan 21 0 0 30 May 2025
Revisiting Uncertainty Estimation and Calibration of Large Language Models Linwei Tao Yi-Fan Yeh Minjing Dong Tao Huang Philip Torr Chang Xu 15 0 0 29 May 2025
Explaining Sources of Uncertainty in Automated Fact-Checking Jingyi Sun Greta Warren Irina Shklovski Isabelle Augenstein 58 1 0 23 May 2025
Misaligned Roles, Misplaced Images: Structural Input Perturbations Expose Multimodal Alignment Blind Spots Erfan Shayegani G M Shahariar Sara Abdali Lei Yu Nael B. Abu-Ghazaleh Yue Dong AAML 142 0 0 01 Apr 2025
Do I Know This Entity? Knowledge Awareness and Hallucinations in Language Models Javier Ferrando Oscar Obeso Senthooran Rajamanoharan Neel Nanda 163 33 0 21 Nov 2024
A Survey of Uncertainty Estimation in LLMs: Theory Meets Practice Hsiu-Yuan Huang Yutong Yang Zhaoxi Zhang Sanwoo Lee Yunfang Wu 122 23 0 20 Oct 2024
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations Hadas Orgad Michael Toker Zorik Gekhman Roi Reichart Idan Szpektor Hadas Kotek Yonatan Belinkov HILM AIFin 123 45 0 03 Oct 2024
Robust LLM safeguarding via refusal feature adversarial training L. Yu Virginie Do Karen Hambardzumyan Nicola Cancedda AAML 147 19 0 30 Sep 2024
ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models Yuzhe Gu Ziwei Ji Wenwei Zhang Chengqi Lyu Dahua Lin Kai Chen HILM 81 5 0 05 Jul 2024
LLM Internal States Reveal Hallucination Risk Faced With a Query Ziwei Ji Delong Chen Etsuko Ishii Samuel Cahyawijaya Yejin Bang Bryan Wilie Pascale Fung HILM LRM 105 35 0 03 Jul 2024
Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs Jannik Kossen Jiatong Han Muhammed Razzak Lisa Schut Shreshth A. Malik Yarin Gal HILM 115 54 0 22 Jun 2024
Refusal in Language Models Is Mediated by a Single Direction Andy Arditi Oscar Obeso Aaquib Syed Daniel Paleka Nina Panickssery Wes Gurnee Neel Nanda 169 218 0 17 Jun 2024
LACIE: Listener-Aware Finetuning for Confidence Calibration in Large Language Models Elias Stengel-Eskin Peter Hase Mohit Bansal 100 6 0 31 May 2024
Can Large Language Models Faithfully Express Their Intrinsic Uncertainty in Words? G. Yona Roee Aharoni Mor Geva HILM 101 32 0 27 May 2024
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models Chankyu Lee Rajarshi Roy Mengyao Xu Jonathan Raiman Mohammad Shoeybi Bryan Catanzaro Ming-Yu Liu RALM 298 205 0 27 May 2024
Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations Christian Tomani Kamalika Chaudhuri Ivan Evtimov Daniel Cremers Mark Ibrahim 104 15 0 16 Apr 2024
ReFT: Representation Finetuning for Language Models Zhengxuan Wu Aryaman Arora Zheng Wang Atticus Geiger Daniel Jurafsky Christopher D. Manning Christopher Potts OffRL 114 72 0 04 Apr 2024
LUQ: Long-text Uncertainty Quantification for LLMs Caiqi Zhang Fangyu Liu Marco Basaldella Nigel Collier HILM 77 39 0 29 Mar 2024
Mechanistic Understanding and Mitigation of Language Model Non-Factual Hallucinations Lei Yu Meng Cao Jackie Chi Kit Cheung Yue Dong HILM 86 15 0 27 Mar 2024
SPUQ: Perturbation-Based Uncertainty Quantification for Large Language Models Xiang Gao Jiaxin Zhang Lalla Mouatadid Kamalika Das 83 14 0 04 Mar 2024
INSIDE: LLMs' Internal States Retain the Power of Hallucination Detection Chao Chen Kai-Chun Liu Ze Chen Yi Gu Yue-bo Wu Mingyuan Tao Zhihang Fu Jieping Ye HILM 130 111 0 06 Feb 2024
Don't Hallucinate, Abstain: Identifying LLM Knowledge Gaps via Multi-LLM Collaboration Shangbin Feng Weijia Shi Yike Wang Wenxuan Ding Vidhisha Balachandran Yulia Tsvetkov 127 102 0 01 Feb 2024
Tradeoffs Between Alignment and Helpfulness in Language Models with Steering Methods Yotam Wolf Noam Wies Dorin Shteyman Binyamin Rothberg Yoav Levine Amnon Shashua LLMSV 135 14 0 29 Jan 2024
Can AI Assistants Know What They Don't Know? Qinyuan Cheng Tianxiang Sun Xiangyang Liu Wenwei Zhang Zhangyue Yin Shimin Li Linyang Li Zhengfu He Kai Chen Xipeng Qiu 111 26 0 24 Jan 2024
Fine-grained Hallucination Detection and Editing for Language Models Abhika Mishra Akari Asai Vidhisha Balachandran Yizhong Wang Graham Neubig Yulia Tsvetkov Hannaneh Hajishirzi HILM 109 87 0 12 Jan 2024
Relying on the Unreliable: The Impact of Language Models' Reluctance to Express Uncertainty Kaitlyn Zhou Jena D. Hwang Xiang Ren Maarten Sap 86 68 0 12 Jan 2024
On Early Detection of Hallucinations in Factual Question Answering Ben Snyder Marius Moisescu Muhammad Bilal Zafar HILM 120 28 0 19 Dec 2023
Steering Llama 2 via Contrastive Activation Addition Nina Rimsky Nick Gabrieli Julian Schulz Meg Tong Evan Hubinger Alexander Matt Turner LLMSV 59 226 0 09 Dec 2023
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus Tianhang Zhang Lin Qiu Qipeng Guo Cheng Deng Yue Zhang Zheng Zhang Cheng Zhou Xinbing Wang Luoyi Fu HILM 138 59 0 22 Nov 2023
R-Tuning: Instructing Large Language Models to Say `I Don't Know' Hanning Zhang Shizhe Diao Yong Lin Yi R. Fung Qing Lian Xingyao Wang Yangyi Chen Heng Ji Tong Zhang UQLM 122 46 0 16 Nov 2023
The Linear Representation Hypothesis and the Geometry of Large Language Models Kiho Park Yo Joong Choe Victor Veitch LLMSV MILM 170 190 0 07 Nov 2023
Linear Representations of Sentiment in Large Language Models Curt Tigges Oskar John Hollinsworth Atticus Geiger Neel Nanda MILM 64 91 0 23 Oct 2023
Mistral 7B Albert Q. Jiang Alexandre Sablayrolles A. Mensch Chris Bamford Devendra Singh Chaplot ... Teven Le Scao Thibaut Lavril Thomas Wang Timothée Lacroix William El Sayed MoE LRM 130 2,251 0 10 Oct 2023
The Geometry of Truth: Emergent Linear Structure in Large Language Model Representations of True/False Datasets Samuel Marks Max Tegmark HILM 144 227 0 10 Oct 2023
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection Shiping Yang Renliang Sun Xiao-Yi Wan HILM 100 43 0 10 Oct 2023
Towards Mitigating Hallucination in Large Language Models via Self-Reflection Ziwei Ji Tiezheng Yu Yan Xu Nayeon Lee Etsuko Ishii Pascale Fung HILM 59 65 0 10 Oct 2023
Chain of Natural Language Inference for Reducing Large Language Model Ungrounded Hallucinations Deren Lei Yaxi Li Mengya Hu Mingyu Wang Vincent Yun Emily Ching Eslam Kamal HILM LRM 59 40 0 06 Oct 2023
Chain-of-Verification Reduces Hallucination in Large Language Models Shehzaad Dhuliawala M. Komeili Jing Xu Roberta Raileanu Xian Li Asli Celikyilmaz Jason Weston LRM HILM 61 204 0 20 Sep 2023
DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models Yung-Sung Chuang Yujia Xie Hongyin Luo Yoon Kim James R. Glass Pengcheng He HILM 79 167 0 07 Sep 2023
Generating Benchmarks for Factuality Evaluation of Language Models Dor Muhlgay Ori Ram Inbal Magar Yoav Levine Nir Ratner Yonatan Belinkov Omri Abend Kevin Leyton-Brown Amnon Shashua Y. Shoham HILM 64 98 0 13 Jul 2023
A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation Neeraj Varshney Wenlin Yao Hongming Zhang Jianshu Chen Dong Yu HILM 115 175 0 08 Jul 2023
Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models Jinhao Duan Hao-Ran Cheng Shiqi Wang Alex Zavalny Chenan Wang Renjing Xu B. Kailkhura Kaidi Xu 127 50 0 03 Jul 2023
Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs Miao Xiong Zhiyuan Hu Xinyang Lu Yifei Li Jie Fu Junxian He Bryan Hooi 223 451 0 22 Jun 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 504 4,451 0 09 Jun 2023
Inference-Time Intervention: Eliciting Truthful Answers from a Language Model Kenneth Li Oam Patel Fernanda Viégas Hanspeter Pfister Martin Wattenberg KELM HILM 140 584 0 06 Jun 2023
Trusting Your Evidence: Hallucinate Less with Context-aware Decoding Weijia Shi Xiaochuang Han M. Lewis Yulia Tsvetkov Luke Zettlemoyer Scott Yih HILM 75 215 0 24 May 2023
HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large Language Models Junyi Li Xiaoxue Cheng Wayne Xin Zhao J. Nie Ji-Rong Wen HILM VLM 110 253 0 19 May 2023
The Internal State of an LLM Knows When It's Lying A. Azaria Tom Michael Mitchell HILM 323 347 0 26 Apr 2023