v1v2 (latest)

The Curious Case of Hallucinatory (Un)answerability: Finding Truths in the Hidden States of Over-Confident Large Language Models

18 October 2023

Omer Goldman

Papers citing "The Curious Case of Hallucinatory (Un)answerability: Finding Truths in the Hidden States of Over-Confident Large Language Models"

27 / 27 papers shown

Title
Learning on LLM Output Signatures for gray-box Behavior Analysis Guy Bar-Shalom Fabrizio Frasca Derek Lim Yoav Gelberg Yftah Ziser Ran El-Yaniv Gal Chechik Haggai Maron 118 0 0 18 Mar 2025
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations Hadas Orgad Michael Toker Zorik Gekhman Roi Reichart Idan Szpektor Hadas Kotek Yonatan Belinkov HILM AIFin 111 45 0 03 Oct 2024
MAQA: Evaluating Uncertainty Quantification in LLMs Regarding Data Uncertainty Yongjin Yang Haneul Yoo Hwaran Lee 143 4 0 13 Aug 2024
LEACE: Perfect linear concept erasure in closed form Nora Belrose David Schneider-Joseph Shauli Ravfogel Ryan Cotterell Edward Raff Stella Biderman KELM MU 118 119 0 06 Jun 2023
Toxicity in ChatGPT: Analyzing Persona-assigned Language Models Ameet Deshpande Vishvak Murahari Tanmay Rajpurohit Ashwin Kalyan Karthik Narasimhan LM&MA LLMAG 75 369 0 11 Apr 2023
OPT-IML: Scaling Language Model Instruction Meta Learning through the Lens of Generalization Srinivasan Iyer Xi Lin Ramakanth Pasunuru Todor Mihaylov Daniel Simig ... Jeff Wang Christopher Dewan Asli Celikyilmaz Luke Zettlemoyer Veselin Stoyanov ALM 146 267 0 22 Dec 2022
Large Language Models Struggle to Learn Long-Tail Knowledge Nikhil Kandpal H. Deng Adam Roberts Eric Wallace Colin Raffel RALM KELM 128 417 0 15 Nov 2022
Mass-Editing Memory in a Transformer Kevin Meng Arnab Sen Sharma A. Andonian Yonatan Belinkov David Bau KELM VLM 138 599 0 13 Oct 2022
Language Models (Mostly) Know What They Know Saurav Kadavath Tom Conerly Amanda Askell T. Henighan Dawn Drain ... Nicholas Joseph Benjamin Mann Sam McCandlish C. Olah Jared Kaplan ELM 122 830 0 11 Jul 2022
How to Dissect a Muppet: The Structure of Transformer Embedding Spaces Timothee Mickus Denis Paperno Mathieu Constant 72 23 0 07 Jun 2022
On Decoding Strategies for Neural Text Generators Gian Wiher Clara Meister Ryan Cotterell 77 69 0 29 Mar 2022
Transformer Feed-Forward Layers Build Predictions by Promoting Concepts in the Vocabulary Space Mor Geva Avi Caciularu Ke Wang Yoav Goldberg KELM 127 386 0 28 Mar 2022
Evaluating Large Language Models Trained on Code Mark Chen Jerry Tworek Heewoo Jun Qiming Yuan Henrique Pondé ... Bob McGrew Dario Amodei Sam McCandlish Ilya Sutskever Wojciech Zaremba ELM ALM 236 5,647 0 07 Jul 2021
Counterfactual Interventions Reveal the Causal Effect of Relative Clause Representations on Agreement Prediction Shauli Ravfogel Grusha Prasad Tal Linzen Yoav Goldberg 72 59 0 14 May 2021
Cross-Task Generalization via Natural Language Crowdsourcing Instructions Swaroop Mishra Daniel Khashabi Chitta Baral Hannaneh Hajishirzi LRM 168 752 0 18 Apr 2021
Persistent Anti-Muslim Bias in Large Language Models Abubakar Abid Maheen Farooqi James Zou AILaw 108 555 0 14 Jan 2021
How Can We Know When Language Models Know? On the Calibration of Language Models for Question Answering Zhengbao Jiang Jun Araki Haibo Ding Graham Neubig UQCV 60 436 0 02 Dec 2020
IIRC: A Dataset of Incomplete Information Reading Comprehension Questions James Ferguson Matt Gardner Hannaneh Hajishirzi Tushar Khot Pradeep Dasigi RALM 38 55 0 13 Nov 2020
If beam search is the answer, what was the question? Clara Meister Tim Vieira Ryan Cotterell 69 143 0 06 Oct 2020
Null It Out: Guarding Protected Attributes by Iterative Nullspace Projection Shauli Ravfogel Yanai Elazar Hila Gonen Michael Twiton Yoav Goldberg 138 388 0 16 Apr 2020
Calibration of Pre-trained Transformers Shrey Desai Greg Durrett UQLM 296 301 0 17 Mar 2020
Designing and Interpreting Probes with Control Tasks John Hewitt Percy Liang 81 537 0 08 Sep 2019
The Bottom-up Evolution of Representations in the Transformer: A Study with Machine Translation and Language Modeling Objectives Elena Voita Rico Sennrich Ivan Titov 291 187 0 03 Sep 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 1.3K 12,301 0 27 Aug 2019
Know What You Don't Know: Unanswerable Questions for SQuAD Pranav Rajpurkar Robin Jia Percy Liang RALM ELM 292 2,853 0 11 Jun 2018
What you can cram into a single vector: Probing sentence embeddings for linguistic properties Alexis Conneau Germán Kruszewski Guillaume Lample Loïc Barrault Marco Baroni 351 896 0 03 May 2018
SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar Jian Zhang Konstantin Lopyrev Percy Liang RALM 316 8,169 0 16 Jun 2016