RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems

17 January 2025

Papers citing "RAGBench: Explainable Benchmark for Retrieval-Augmented Generation Systems"

18 / 18 papers shown

Title
mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs Chuan Xu Qiaosheng Chen Yutong Feng Gong Cheng RALM 3DV VLM 24 0 0 16 May 2025
Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets Lorenz Brehme Thomas Ströhle Ruth Breu 65 0 0 28 Apr 2025
The Viability of Crowdsourcing for RAG Evaluation Lukas Gienapp Tim Hagen Maik Frobe Matthias Hagen Benno Stein Martin Potthast Harrisen Scells 21 0 0 22 Apr 2025
Retrieval Augmented Generation Evaluation in the Era of Large Language Models: A Comprehensive Survey Aoran Gan Hao Yu Kai Zhang Qi Liu Wenyu Yan Zhenya Huang Shiwei Tong Guoping Hu RALM 3DV 43 0 0 21 Apr 2025
Benchmarking Biopharmaceuticals Retrieval-Augmented Generation Evaluation Hanmeng Zhong Linqing Chen Weilei Wang Wentao Wu 28 0 0 15 Apr 2025
PROPHET: An Inferable Future Forecasting Benchmark with Causal Intervened Likelihood Estimation Zhengwei Tao Zhi Jin Bincheng Li Xiaoying Bai Haiyan Zhao Chengfeng Dou Xiancai Chen Jia Li♂ Linyu Li Chongyang Tao AI4TS 35 0 0 02 Apr 2025
LLMs for Explainable AI: A Comprehensive Survey Ahsan Bilal David Ebert Beiyu Lin 72 1 0 31 Mar 2025
Does Context Matter? ContextualJudgeBench for Evaluating LLM-based Judges in Contextual Settings Austin Xu Srijan Bansal Yifei Ming Semih Yavuz Shafiq R. Joty ELM 95 3 0 19 Mar 2025
Do Retrieval-Augmented Language Models Adapt to Varying User Needs? Peilin Wu Xinlu Zhang Wenhao Yu Xingyu Liu Xinya Du Zhiyu Zoey Chen RALM 45 0 0 27 Feb 2025
Judge as A Judge: Improving the Evaluation of Retrieval-Augmented Generation through the Judge-Consistency of Large Language Models Shuliang Liu Xinze Li Zhenghao Liu Yukun Yan Cheng Yang Zheni Zeng Zhiyuan Liu Maosong Sun Ge Yu RALM 102 1 0 26 Feb 2025
Meta-Chunking: Learning Efficient Text Segmentation via Logical Perception Jihao Zhao Zhiyuan Ji Pengnian Qi Simin Niu Bo Tang Feiyu Xiong Z. Li Zhiyu Li 79 4 0 16 Oct 2024
Trustworthiness in Retrieval-Augmented Generation Systems: A Survey Yujia Zhou Yan Liu Xiaoxi Li Jiajie Jin Hongjin Qian Zheng Liu Chaozhuo Li Zhicheng Dou Tsung-Yi Ho Philip S. Yu 3DV RALM 60 28 0 16 Sep 2024
Retrieval-Augmented Generation for Natural Language Processing: A Survey Shangyu Wu Ying Xiong Yufei Cui Haolun Wu Can Chen ... Lianming Huang Xue Liu Tei-Wei Kuo Nan Guan C. Xue 3DV RALM 36 26 0 18 Jul 2024
Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations Zhuoyan Li Hangxiao Zhu Zhuoran Lu Ming Yin SyDa 69 67 0 11 Oct 2023
Can Large Language Models Be an Alternative to Human Evaluations? Cheng-Han Chiang Hung-yi Lee ALM LM&MA 224 572 0 03 May 2023
Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason W. Wei Xuezhi Wang Dale Schuurmans Maarten Bosma Brian Ichter F. Xia Ed H. Chi Quoc Le Denny Zhou LM&Ro LRM AI4CE ReLM 361 8,495 0 28 Jan 2022
Increasing Faithfulness in Knowledge-Grounded Dialogue with Controllable Features Hannah Rashkin David Reitter Gaurav Singh Tomar Dipanjan Das 161 101 0 14 Jul 2021
PubMedQA: A Dataset for Biomedical Research Question Answering Qiao Jin Bhuwan Dhingra Zhengping Liu William W. Cohen Xinghua Lu 210 812 0 13 Sep 2019