v1v2v3 (latest)

Large Language Models are Diverse Role-Players for Summarization Evaluation

27 March 2023

Papers citing "Large Language Models are Diverse Role-Players for Summarization Evaluation"

44 / 44 papers shown

Title
Adaptive-VP: A Framework for LLM-Based Virtual Patients that Adapts to Trainees' Dialogue to Facilitate Nurse Communication Training Keyeun Lee Seolhee Lee Esther Hehsun Kim Yena Ko Jinsu Eun ... Haiyi Zhu Robert E. Kraut Eunyoung Suh Eun-mee Kim Hajin Lim 34 0 0 31 May 2025
Literature Review Of Multi-Agent Debate For Problem-Solving Arne Tillmann LLMAG 41 0 0 29 May 2025
Automated Meta Prompt Engineering for Alignment with the Theory of Mind Aaron Baughman Rahul Agarwal Eduardo Morales Gozde Akay 126 0 0 13 May 2025
LLM-as-a-Judge: Reassessing the Performance of LLMs in Extractive QA Xanh Ho Jiahao Huang Florian Boudin Akiko Aizawa ELM 150 0 0 16 Apr 2025
A Survey on Transformer Context Extension: Approaches and Evaluation Yijun Liu Jinzheng Yu Yang Xu Zhongyang Li Qingfu Zhu LLMAG 135 3 0 17 Mar 2025
Large Language Models for Anomaly and Out-of-Distribution Detection: A Survey Ruiyao Xu Kaize Ding 128 7 0 17 Feb 2025
Enhancing Patient-Centric Communication: Leveraging LLMs to Simulate Patient Perspectives Xinyao Ma Rui Zhu Zihao Wang Jingwei Xiong Qingyu Chen Haixu Tang L. Jean Camp Lucila Ohno-Machado LM&MA 95 0 0 12 Jan 2025
From Generation to Judgment: Opportunities and Challenges of LLM-as-a-judge Dawei Li Bohan Jiang Liangjie Huang Alimohammad Beigi Chengshuai Zhao ... Canyu Chen Tianhao Wu Kai Shu Lu Cheng Huan Liu ELM AILaw 398 112 0 25 Nov 2024
KAHANI: Culturally-Nuanced Visual Storytelling Tool for Non-Western Cultures Hamna Deepthi Sudharsan Agrima Seth Ritvik Budhiraja Deepika Khullar Vyshak Jain Kalika Bali Aditya Vashistha Sameer Segal DiffM 65 0 0 25 Oct 2024
A Scalable Data-Driven Framework for Systematic Analysis of SEC 10-K Filings Using Large Language Models Syed Affan Daimi Asma Iqbal 64 1 0 26 Sep 2024
PersonaFlow: Designing LLM-Simulated Expert Perspectives for Enhanced Research Ideation Yiren Liu Pranav Sharma Mehul Jitendra Oswal Haijun Xia Yun Huang 96 13 0 19 Sep 2024
Estimating Contribution Quality in Online Deliberations Using a Large Language Model Lodewijk Gelauff Mohak Goyal Bhargav Dindukurthi Ashish Goel Alice Siu 80 0 0 21 Aug 2024
Speech vs. Transcript: Does It Matter for Human Annotators in Speech Summarization? Roshan S. Sharma Suwon Shon Mark Lindsey Hira Dhamyal Rita Singh Bhiksha Raj 105 1 0 12 Aug 2024
CLAVE: An Adaptive Framework for Evaluating Values of LLM Generated Responses Jing Yao Xiaoyuan Yi Xing Xie ELM ALM 92 11 0 15 Jul 2024
Self-Prompt Tuning: Enable Autonomous Role-Playing in LLMs Aobo Kong Shiwan Zhao Hao Chen Qicheng Li Yong Qin Ruiqi Sun Xin Zhou Jiaming Zhou Haoqin Sun 100 12 0 12 Jul 2024
Optimal Decision Making Through Scenario Simulations Using Large Language Models Sumedh Rasal E. Hauer 89 1 0 09 Jul 2024
A Comparative Study of Quality Evaluation Methods for Text Summarization Huyen Nguyen Haihua Chen Lavanya Pobbathi Junhua Ding ELM 88 6 0 30 Jun 2024
The SIFo Benchmark: Investigating the Sequential Instruction Following Ability of Large Language Models Xinyi Chen Baohao Liao Jirui Qi Panagiotis Eustratiadis Christof Monz Arianna Bisazza Maarten de Rijke ALM ELM LRM 84 7 0 28 Jun 2024
Themis: Towards Flexible and Interpretable NLG Evaluation Xinyu Hu Li Lin Mingqi Gao Xunjian Yin Xiaojun Wan ELM 94 8 0 26 Jun 2024
A Systematic Survey of Text Summarization: From Statistical Methods to Large Language Models Haopeng Zhang Philip S. Yu Jiawei Zhang 146 27 0 17 Jun 2024
Language Model Council: Democratically Benchmarking Foundation Models on Highly Subjective Tasks Justin Zhao Flor Miriam Plaza del Arco Amanda Cercas Curry Amanda Cercas Curry ELM ALM 90 1 0 12 Jun 2024
Two Tales of Persona in LLMs: A Survey of Role-Playing and Personalization Yu-Min Tseng Yu-Chao Huang Teng-Yun Hsiao Yu-Ching Hsu Chao-Wei Huang Jia-Yin Foo Yun-Nung Chen LLMAG 430 92 0 03 Jun 2024
Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions Ruochen Zhao Wenxuan Zhang Yew Ken Chia Deli Zhao Lidong Bing 104 9 0 30 May 2024
Iris: An AI-Driven Virtual Tutor For Computer Science Education Patrick Bassner Eduard Frankford Stephan Krusche 81 24 0 09 May 2024
An Artificial Neuron for Enhanced Problem Solving in Large Language Models Sumedh Rasal LLMAG 74 0 0 22 Apr 2024
Large Language Models Offer an Alternative to the Traditional Approach of Topic Modelling Yida Mu Chun Dong Kalina Bontcheva Xingyi Song 77 25 0 24 Mar 2024
From Paper to Card: Transforming Design Implications with Generative AI Donghoon Shin Lucy Lu Wang Gary Hsieh 72 14 0 12 Mar 2024
Debatrix: Multi-dimensional Debate Judge with Iterative Chronological Analysis Based on LLM Jingcong Liang Rong Ye Meng Han Ruofei Lai Xinyu Zhang Xuanjing Huang Zhongyu Wei 86 8 0 12 Mar 2024
Know Your Audience: The benefits and pitfalls of generating plain language summaries beyond the "general" audience Tal August Kyle Lo Noah A. Smith Katharina Reinecke 92 14 0 08 Mar 2024
RouteExplainer: An Explanation Framework for Vehicle Routing Problem Daisuke Kikuta Hiroki Ikeuchi Kengo Tajiri Yuusuke Nakano 92 1 0 06 Mar 2024
Role Prompting Guided Domain Adaptation with General Capability Preserve for Large Language Models Rui Wang Fei Mi Yi Chen Boyang Xue Hongru Wang Qi Zhu Kam-Fai Wong Rui-Lan Xu CLL 73 7 0 05 Mar 2024
A Comprehensive Survey on Process-Oriented Automatic Text Summarization with Exploration of LLM-Based Methods Hanlei Jin Yang Zhang Dan Meng Jun Wang Jinghua Tan 249 96 0 05 Mar 2024
Navigating Complexity: Orchestrated Problem Solving with Multi-Agent LLMs Sumedh Rasal E. Hauer 69 0 0 26 Feb 2024
LLM-based NLG Evaluation: Current Status and Challenges Mingqi Gao Xinyu Hu Jie Ruan Xiao Pu Xiaojun Wan ELM LM&MA 224 41 0 02 Feb 2024
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges Zhen Li Xiaohan Xu Tao Shen Can Xu Jia-Chen Gu Yuxuan Lai Chongyang Tao Shuai Ma LM&MA ELM 136 15 0 13 Jan 2024
LLM Harmony: Multi-Agent Communication for Problem Solving Sumedh Rasal LLMAG 66 24 0 02 Jan 2024
Towards Better Evaluation of Instruction-Following: A Case-Study in Summarization Ondrej Skopek Rahul Aralikatte Sian Gooding Victor Carbune ELM 102 19 0 12 Oct 2023
CodeTransOcean: A Comprehensive Multilingual Benchmark for Code Translation Weixiang Yan Yuchen Tian Yunzhe Li Qian Chen Wen Wang 119 42 0 08 Oct 2023
Better Zero-Shot Reasoning with Role-Play Prompting Aobo Kong Shiwan Zhao Hao Chen Qicheng Li Yong Qin Ruiqi Sun Xiaoxia Zhou Enzhi Wang Xiaohang Dong ReLM LLMAG LRM 101 179 0 15 Aug 2023
ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate Chi-Min Chan Weize Chen Yusheng Su Jianxuan Yu Wei Xue Shan Zhang Jie Fu Zhiyuan Liu ELM LLMAG ALM 102 504 0 14 Aug 2023
Learning Evaluation Models from Large Language Models for Sequence Generation Chenglong Wang Hang Zhou Kai-Chun Chang Tongran Liu Chunliang Zhang Quan Du Tong Xiao Yue Zhang Jingbo Zhu ELM 163 4 0 08 Aug 2023
Is GPT-4 a Good Data Analyst? Liying Cheng Xingxuan Li Lidong Bing LM&MA ELM 125 101 0 24 May 2023
Rethinking the Evaluation for Conversational Recommendation in the Era of Large Language Models Xiaolei Wang Xinyu Tang Wayne Xin Zhao Jingyuan Wang Ji-Rong Wen ALM 97 54 0 22 May 2023
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization Chenhui Shen Liying Cheng Xuan-Phi Nguyen Yang You Lidong Bing ELM ALM 107 72 0 22 May 2023