Can Large Language Models Be an Alternative to Human Evaluations?

3 May 2023

Papers citing "Can Large Language Models Be an Alternative to Human Evaluations?"

22 / 122 papers shown

Title
DELL: Generating Reactions and Explanations for LLM-Based Misinformation Detection Herun Wan Shangbin Feng Zhaoxuan Tan Heng Wang Yulia Tsvetkov Minnan Luo 137 34 0 16 Feb 2024
LLM-based NLG Evaluation: Current Status and Challenges Mingqi Gao Xinyu Hu Jie Ruan Xiao Pu Xiaojun Wan ELM LM&MA 213 41 0 02 Feb 2024
LLM4Vuln: A Unified Evaluation Framework for Decoupling and Enhancing LLMs' Vulnerability Reasoning Yuqiang Sun Daoyuan Wu Yue Xue Han Liu Wei Ma Lyuye Zhang Miaolei Shi Yingjiu Li ELM 181 55 0 29 Jan 2024
RAG vs Fine-tuning: Pipelines, Tradeoffs, and a Case Study on Agriculture M. A. D. L. Balaguer Vinamra Benara Renato Luiz de Freitas Cunha Roberto de M. Estevao Filho Todd Hendry ... Morris Sharp B. Silva Swati Sharma Vijay Aski Ranveer Chandra FaML 115 92 0 16 Jan 2024
Distilling Event Sequence Knowledge From Large Language Models Somin Wadhwa Oktie Hassanzadeh D. Bhattacharjya Ken Barker Jian Ni 74 1 0 14 Jan 2024
Exploring the Frontiers of LLMs in Psychological Applications: A Comprehensive Review Luoma Ke Song Tong Peng Cheng Kaiping Peng OffRL LM&MA 172 22 0 03 Jan 2024
LLM-SQL-Solver: Can LLMs Determine SQL Equivalence? Fuheng Zhao Lawrence Lim Ishtiyaque Ahmad D. Agrawal A. El Abbadi Amr El Abbadi 119 13 0 16 Dec 2023
Honeybee: Locality-enhanced Projector for Multimodal LLM Junbum Cha Wooyoung Kang Jonghwan Mun Byungseok Roh MLLM 97 133 0 11 Dec 2023
InCA: Rethinking In-Car Conversational System Assessment Leveraging Large Language Models Ken E. Friedl Abbas Goher Khan S. Sahoo Md. Rony Jana Germies Christian Süß 72 3 0 13 Nov 2023
Large Language Models for Code Analysis: Do LLMs Really Do Their Job? Chongzhou Fang Ning Miao Shaurya Srivastav Jialin Liu Ruoyu Zhang ... Asmita Asmita Ryan Tsang Najmeh Nazari Han Wang Houman Homayoun 124 47 0 18 Oct 2023
Utilising a Large Language Model to Annotate Subject Metadata: A Case Study in an Australian National Research Data Catalogue Shiwei Zhang Ming-Lun Wu Xiuzhen Zhang 73 4 0 17 Oct 2023
Foundation Metrics for Evaluating Effectiveness of Healthcare Conversations Powered by Generative AI Mahyar Abbasian Elahe Khatibi Iman Azimi David Oniani Zahra Shakeri Hossein Abad ... Bryant Lin Olivier Gevaert Li-Jia Li Ramesh C. Jain Amir M. Rahmani LM&MA ELM AI4MH 139 76 0 21 Sep 2023
GenAIPABench: A Benchmark for Generative AI-based Privacy Assistants Aamir Hamid Hemanth Reddy Samidi Tim Finin Primal Pappachan Roberto Yus ELM 56 8 0 10 Sep 2023
Retrieving Evidence from EHRs with LLMs: Possibilities and Challenges Hiba Ahsan Denis Jered McInerney Jisoo Kim Christopher Potter Geoffrey S. Young Silvio Amir Byron C. Wallace 63 12 0 08 Sep 2023
Rational Decision-Making Agent with Internalized Utility Judgment Yining Ye Xin Cong Shizuo Tian Yujia Qin Chong Liu Y. Lin Zhiyuan Liu Maosong Sun LLMAG 91 8 0 24 Aug 2023
Learning Evaluation Models from Large Language Models for Sequence Generation Chenglong Wang Hang Zhou Kai-Chun Chang Tongran Liu Chunliang Zhang Quan Du Tong Xiao Yue Zhang Jingbo Zhu ELM 154 4 0 08 Aug 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 562 4,455 0 09 Jun 2023
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models Yew Ken Chia Pengfei Hong Lidong Bing Soujanya Poria ELM 79 65 0 07 Jun 2023
WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia Sina J. Semnani Violet Z. Yao He Zhang M. Lam KELM AI4MH 115 81 0 23 May 2023
On Learning to Summarize with Large Language Models as References Yixin Liu Kejian Shi Katherine S He Longtian Ye Alexander R. Fabbri Pengfei Liu Dragomir R. Radev Arman Cohan ELM 117 82 0 23 May 2023
AlpacaFarm: A Simulation Framework for Methods that Learn from Human Feedback Yann Dubois Xuechen Li Rohan Taori Tianyi Zhang Ishaan Gulrajani Jimmy Ba Carlos Guestrin Percy Liang Tatsunori B. Hashimoto ALM 152 608 0 22 May 2023
Album Storytelling with Iterative Story-aware Captioning and Large Language Models Munan Ning Yujia Xie Dongdong Chen Zeyin Song Lu Yuan Yonghong Tian QiXiang Ye Liuliang Yuan 71 8 0 22 May 2023