Local Explanations and Self-Explanations for Assessing Faithfulness in black-box LLMs

18 September 2024

Papers citing "Local Explanations and Self-Explanations for Assessing Faithfulness in black-box LLMs"

11 / 11 papers shown

Title
Using Captum to Explain Generative Language Models Vivek Miglani Aobo Yang Aram H. Markosyan Diego Garcia-Olano Narine Kokhlikyan 86 32 0 09 Dec 2023
Ethical and social risks of harm from Language Models Laura Weidinger John F. J. Mellor Maribeth Rauh Conor Griffin J. Uesato ... Lisa Anne Hendricks William S. Isaac Sean Legassick G. Irving Iason Gabriel PILM 119 1,042 0 08 Dec 2021
BARTScore: Evaluating Generated Text as Text Generation Weizhe Yuan Graham Neubig Pengfei Liu 123 849 0 22 Jun 2021
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 880 42,379 0 28 May 2020
Generating Hierarchical Explanations on Text Classification via Feature Interaction Detection Hanjie Chen Guangtao Zheng Yangfeng Ji FAtt 97 95 0 04 Apr 2020
REALM: Retrieval-Augmented Language Model Pre-Training Kelvin Guu Kenton Lee Zora Tung Panupong Pasupat Ming-Wei Chang RALM 145 2,116 0 10 Feb 2020
End-to-End Open-Domain Question Answering with BERTserini Wei Yang Yuqing Xie Aileen Lin Xingyu Li Luchen Tan Kun Xiong Ming Li Jimmy J. Lin RALM 124 495 0 05 Feb 2019
Techniques for Interpretable Machine Learning Mengnan Du Ninghao Liu Helen Zhou FaML 88 1,092 0 31 Jul 2018
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension Mandar Joshi Eunsol Choi Daniel S. Weld Luke Zettlemoyer RALM 228 2,686 0 09 May 2017
Reading Wikipedia to Answer Open-Domain Questions Danqi Chen Adam Fisch Jason Weston Antoine Bordes RALM 121 2,019 0 31 Mar 2017
"Why Should I Trust You?": Explaining the Predictions of Any Classifier Marco Tulio Ribeiro Sameer Singh Carlos Guestrin FAtt FaML 1.2K 17,033 0 16 Feb 2016