GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence

19 February 2024

Papers citing "GenAudit: Fixing Factual Errors in Language Model Outputs with Evidence"

33 / 33 papers shown

Title
FACTS&EVIDENCE: An Interactive Tool for Transparent Fine-Grained Factual Verification of Machine-Generated Text Varich Boonsanong Vidhisha Balachandran Xiaochuang Han Shangbin Feng Lucy Lu Wang Yulia Tsvetkov 84 1 0 19 Mar 2025
Do Automatic Factuality Metrics Measure Factuality? A Critical Evaluation S. Ramprasad Byron C. Wallace LLMAG HILM 118 3 0 25 Nov 2024
Tools Fail: Detecting Silent Errors in Faulty Tools Jimin Sun So Yeon Min Yingshan Chang Yonatan Bisk 70 5 0 27 Jun 2024
A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges Yuqi Nie Yaxuan Kong Xiaowen Dong John M. Mulvey H. Vincent Poor Qingsong Wen Stefan Zohren AIFin 70 45 0 15 Jun 2024
Large Language Models Meet User Interfaces: The Case of Provisioning Feedback Stanislav Pozdniakov Jonathan Brazil Solmaz Abdi Aneesha Bakharia Shazia Sadiq D. Gašević Paul Denny Hassan Khosravi ELM 64 16 0 17 Apr 2024
DelucionQA: Detecting Hallucinations in Domain-specific Question Answering Mobashir Sadat Zhengyu Zhou Lukas Lange Jun Araki Arsalan Gundroo Bingqing Wang Rakesh R Menon Md. Rizwan Parvez Zhe Feng HILM 47 37 0 08 Dec 2023
The Falcon Series of Open Language Models Ebtesam Almazrouei Hamza Alobeidli Abdulaziz Alshamsi Alessandro Cappelli Ruxandra-Aimée Cojocaru ... Quentin Malartic Daniele Mazzotta Badreddine Noune B. Pannier Guilherme Penedo AI4TS ALM 124 420 0 28 Nov 2023
Fine-tuning Language Models for Factuality Katherine Tian Eric Mitchell Huaxiu Yao Christopher D. Manning Chelsea Finn KELM HILM SyDa 49 172 0 14 Nov 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 197 11,636 0 18 Jul 2023
Inference-Time Intervention: Eliciting Truthful Answers from a Language Model Kenneth Li Oam Patel Fernanda Viégas Hanspeter Pfister Martin Wattenberg KELM HILM 78 528 0 06 Jun 2023
ACI-BENCH: a Novel Ambient Clinical Intelligence Dataset for Benchmarking Automatic Visit Note Generation Wen-wai Yim Yujuan Fu Asma Ben Abacha Neal Snider Thomas Lin Meliha Yetisgen 31 79 0 03 Jun 2023
Direct Preference Optimization: Your Language Model is Secretly a Reward Model Rafael Rafailov Archit Sharma E. Mitchell Stefano Ermon Christopher D. Manning Chelsea Finn ALM 271 3,712 0 29 May 2023
QLoRA: Efficient Finetuning of Quantized LLMs Tim Dettmers Artidoro Pagnoni Ari Holtzman Luke Zettlemoyer ALM 106 2,454 0 23 May 2023
USB: A Unified Summarization Benchmark Across Tasks and Domains Kundan Krishna Prakhar Gupta S. Ramprasad Byron C. Wallace Jeffrey P. Bigham Zachary Chase Lipton HILM 53 8 0 23 May 2023
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation Sewon Min Kalpesh Krishna Xinxi Lyu M. Lewis Wen-tau Yih Pang Wei Koh Mohit Iyyer Luke Zettlemoyer Hannaneh Hajishirzi HILM ALM 108 649 0 23 May 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 523 13,788 0 15 Mar 2023
A Meta-Evaluation of Faithfulness Metrics for Long-Form Hospital-Course Summarization Griffin Adams Jason Zucker Noémie Elhadad 59 23 0 07 Mar 2023
WiCE: Real-World Entailment for Claims in Wikipedia Ryo Kamoi Tanya Goyal Juan Diego Rodriguez Greg Durrett 44 84 0 02 Mar 2023
On Improving Summarization Factual Consistency from Natural Language Feedback Yixin Liu Budhaditya Deb Milagro Teruel Aaron L Halfaker Dragomir R. Radev Ahmed Hassan Awadallah HILM 37 37 0 20 Dec 2022
Scaling Instruction-Finetuned Language Models Hyung Won Chung Le Hou Shayne Longpre Barret Zoph Yi Tay ... Jacob Devlin Adam Roberts Denny Zhou Quoc V. Le Jason W. Wei ReLM LRM 139 3,072 0 20 Oct 2022
UL2: Unifying Language Learning Paradigms Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason W. Wei ... Tal Schuster H. Zheng Denny Zhou N. Houlsby Donald Metzler AI4CE 95 304 0 10 May 2022
QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization Alexander R. Fabbri Chien-Sheng Wu Wenhao Liu Caiming Xiong HILM 49 214 0 16 Dec 2021
SummaC: Re-Visiting NLI-based Models for Inconsistency Detection in Summarization Philippe Laban Tobias Schnabel Paul N. Bennett Marti A. Hearst HILM 65 387 0 18 Nov 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 225 10,099 0 17 Jun 2021
Annotating and Modeling Fine-grained Factuality in Summarization Tanya Goyal Greg Durrett HILM 43 154 0 09 Apr 2021
Evaluating the Factual Consistency of Abstractive Text Summarization Wojciech Kry'sciñski Bryan McCann Caiming Xiong R. Socher HILM 69 739 0 28 Oct 2019
The Curious Case of Neural Text Degeneration Ari Holtzman Jan Buys Li Du Maxwell Forbes Yejin Choi 145 3,133 0 22 Apr 2019
Abstractive Summarization of Reddit Posts with Multi-level Memory Networks Byeongchang Kim Hyunwoo J. Kim Gunhee Kim 40 182 0 02 Nov 2018
Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization Shashi Narayan Shay B. Cohen Mirella Lapata AILaw 102 1,652 0 27 Aug 2018
Faithful to the Original: Fact Aware Neural Abstractive Summarization Ziqiang Cao Furu Wei Wenjie Li Sujian Li HILM 67 372 0 13 Nov 2017
Get To The Point: Summarization with Pointer-Generator Networks A. See Peter J. Liu Christopher D. Manning 3DPC 183 4,006 0 14 Apr 2017
Incorporating Discrete Translation Lexicons into Neural Machine Translation Philip Arthur Graham Neubig Satoshi Nakamura 40 209 0 07 Jun 2016
Training Deep Nets with Sublinear Memory Cost Tianqi Chen Bing Xu Chiyuan Zhang Carlos Guestrin 82 1,156 0 21 Apr 2016