Evaluating Attribution in Dialogue Systems: The BEGIN Benchmark

30 April 2021

Hannah Rashkin

Papers citing "Evaluating Attribution in Dialogue Systems: The BEGIN Benchmark"

22 / 22 papers shown

Title
Evaluating Evaluation Metrics -- The Mirage of Hallucination Detection Atharva Kulkarni Yuan-kang Zhang Joel Ruben Antony Moniz Xiou Ge Bo-Hsiang Tseng Dhivya Piraviperumal Shuifa Sun Hong-ye Yu HILM 83 0 0 25 Apr 2025
Improving Model Factuality with Fine-grained Critique-based Evaluator Yiqing Xie Wenxuan Zhou Pradyot Prakash Di Jin Yuning Mao ... Sinong Wang Han Fang Carolyn Rose Daniel Fried Hejia Zhang HILM 33 5 0 24 Oct 2024
Leveraging Entailment Judgements in Cross-Lingual Summarisation Huajian Zhang Laura Perez-Beltrachini HILM 38 0 0 01 Aug 2024
Enhancing Hallucination Detection through Perturbation-Based Synthetic Data Generation in System Responses Dongxu Zhang Varun Gangal B. Lattimer Yi Yang 35 6 0 07 Jul 2024
CHARP: Conversation History AwaReness Probing for Knowledge-grounded Dialogue Systems Abbas Ghaddar David Alfonso-Hermelo Philippe Langlais Mehdi Rezagholizadeh Boxing Chen Prasanna Parthasarathi 39 0 0 24 May 2024
SemEval-2024 Shared Task 6: SHROOM, a Shared-task on Hallucinations and Related Observable Overgeneration Mistakes Timothee Mickus Elaine Zosa Raúl Vázquez Teemu Vahtola Jörg Tiedemann Vincent Segonne Alessandro Raganato Marianna Apidianaki HILM LRM 40 20 0 12 Mar 2024
Fine-Grained Natural Language Inference Based Faithfulness Evaluation for Diverse Summarisation Tasks Huajian Zhang Yumo Xu Laura Perez-Beltrachini HILM 32 9 0 27 Feb 2024
Large Language Models: A Survey Shervin Minaee Tomáš Mikolov Narjes Nikzad M. Asgari-Chenaghlu R. Socher Xavier Amatriain Jianfeng Gao ALM LM&MA ELM 131 369 0 09 Feb 2024
From Heuristic to Analytic: Cognitively Motivated Strategies for Coherent Physical Commonsense Reasoning Zheyuan Zhang Shane Storks Fengyuan Hu Sungryull Sohn Moontae Lee Honglak Lee Joyce Chai LRM 39 3 0 24 Oct 2023
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection Shiping Yang Renliang Sun Xiao-Yi Wan HILM 32 41 0 10 Oct 2023
Cognitive Mirage: A Review of Hallucinations in Large Language Models Hongbin Ye Tong Liu Aijia Zhang Wei Hua Weiqiang Jia HILM 42 76 0 13 Sep 2023
Pointwise Mutual Information Based Metric and Decoding Strategy for Faithful Generation in Document Grounded Dialogs Yatin Nandwani Vineet Kumar Dinesh Raghu Sachindra Joshi Luis A. Lastras 24 6 0 20 May 2023
Elastic Weight Removal for Faithful and Abstractive Dialogue Generation Nico Daheim Nouha Dziri Mrinmaya Sachan Iryna Gurevych E. Ponti MoMe 31 30 0 30 Mar 2023
Improving Chess Commentaries by Combining Language Models with Symbolic Reasoning Engines Andrew Lee David Wu Emily Dinan M. Lewis LRM 25 7 0 15 Dec 2022
Controllable Factuality in Document-Grounded Dialog Systems Using a Noisy Channel Model Nico Daheim David Thulke Christian Dugast Hermann Ney HILM 19 4 0 31 Oct 2022
Survey of Hallucination in Natural Language Generation Ziwei Ji Nayeon Lee Rita Frieske Tiezheng Yu D. Su ... Delong Chen Wenliang Dai Ho Shu Chan Andrea Madotto Pascale Fung HILM LRM 49 2,234 0 08 Feb 2022
Measuring Attribution in Natural Language Generation Models Hannah Rashkin Vitaly Nikolaev Matthew Lamm Lora Aroyo Michael Collins Dipanjan Das Slav Petrov Gaurav Singh Tomar Iulia Turc David Reitter 27 172 0 23 Dec 2021
Increasing Faithfulness in Knowledge-Grounded Dialogue with Controllable Features Hannah Rashkin David Reitter Gaurav Singh Tomar Dipanjan Das 167 101 0 14 Jul 2021
Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics Artidoro Pagnoni Vidhisha Balachandran Yulia Tsvetkov HILM 228 305 0 27 Apr 2021
Focused Attention Improves Document-Grounded Generation Shrimai Prabhumoye Kazuma Hashimoto Yingbo Zhou A. Black Ruslan Salakhutdinov 167 41 0 26 Apr 2021
The GEM Benchmark: Natural Language Generation, its Evaluation and Metrics Sebastian Gehrmann Tosin P. Adewumi Karmanya Aggarwal Pawan Sasanka Ammanamanchi Aremu Anuoluwapo ... Nishant Subramani Wei-ping Xu Diyi Yang Akhila Yerukola Jiawei Zhou VLM 251 285 0 02 Feb 2021
GO FIGURE: A Meta Evaluation of Factuality in Summarization Saadia Gabriel Asli Celikyilmaz Rahul Jha Yejin Choi Jianfeng Gao HILM 238 96 0 24 Oct 2020