v1v2v3 (latest)

BERTScore: Evaluating Text Generation with BERT

21 April 2019

Papers citing "BERTScore: Evaluating Text Generation with BERT"

50 / 3,519 papers shown

Title
Enhancing the Traditional Chinese Medicine Capabilities of Large Language Model through Reinforcement Learning from AI Feedback Song Yu Xiaofei Xu Fangfei Xu Li Li LM&MA 67 1 0 01 Nov 2024
MACE: Leveraging Audio for Evaluating Audio Captioning Systems Satvik Dixit Soham Deshmukh Bhiksha Raj 59 1 0 01 Nov 2024
Rationale-Guided Retrieval Augmented Generation for Medical Question Answering Jiwoong Sohn Yein Park Chanwoong Yoon Sihyeon Park Hyeon Hwang Mujeen Sung Hyunjae Kim Jaewoo Kang RALM 135 10 0 01 Nov 2024
GPT for Games: An Updated Scoping Review (2020-2024) Daijin Yang Erica Kleinman Casper Harteveld LLMAG AI4TS AI4CE 183 3 0 01 Nov 2024
Generative Emotion Cause Explanation in Multimodal Conversations Lin Wang Xiaocui Yang Shi Feng Daling Wang Yifei Zhang Zhitao Zhang 101 0 0 01 Nov 2024
IdeaBench: Benchmarking Large Language Models for Research Idea Generation Sikun Guo Amir Hassan Shariatmadari Guangzhi Xiong Albert Huang Eric Xie Stefan Bekiranov Aidong Zhang LM&MA 79 12 0 31 Oct 2024
DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios Junchao Wu Runzhe Zhan Derek F. Wong Shu Yang Xinyi Yang Yulin Yuan Lidia S. Chao DeLMO 194 2 0 31 Oct 2024
ReasoningRec: Bridging Personalized Recommendations and Human-Interpretable Explanations through LLM Reasoning Millennium Bismay Xiangjue Dong James Caverlee LRM 42 4 0 30 Oct 2024
PV-VTT: A Privacy-Centric Dataset for Mission-Specific Anomaly Detection and Natural Language Interpretation Ryozo Masukawa Sanggeon Yun Yoshiki Yamaguchi Mohsen Imani 75 1 0 30 Oct 2024
Danoliteracy of Generative Large Language Models Søren Vejlgaard Holm Lars Kai Hansen Martin Carsten Nielsen ELM 88 0 0 30 Oct 2024
DISCERN: Decoding Systematic Errors in Natural Language for Text Classifiers Rakesh R Menon Shashank Srivastava 46 2 0 29 Oct 2024
Is Our Chatbot Telling Lies? Assessing Correctness of an LLM-based Dutch Support Chatbot Herman Lassche Michiel Overeem Ayushi Rastogi 83 0 0 29 Oct 2024
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding Yuan Wang Di Huang Yaqi Zhang Wanli Ouyang J. Jiao Xuetao Feng Yan Zhou Pengfei Wan Shixiang Tang Dan Xu VGen 108 16 0 29 Oct 2024
Do Large Language Models Align with Core Mental Health Counseling Competencies? Viet Cuong Nguyen Mohammad Taher Dongwan Hong Vinicius Konkolics Possobom Vibha Thirunellayi Gopalakrishnan ... Zihang Li H. J. Soled Michael L. Birnbaum Srijan Kumar M. D. Choudhury ELM LM&MA AI4MH 100 4 0 29 Oct 2024
AAAR-1.0: Assessing AI's Potential to Assist Research Renze Lou Hanzi Xu Sijia Wang Jiangshu Du Ryo Kamoi ... Xi Li Kai Zhang Congying Xia Lifu Huang Wenpeng Yin 148 7 0 29 Oct 2024
RoBIn: A Transformer-Based Model For Risk Of Bias Inference With Machine Reading Comprehension Abel Corrêa Dias Viviane Pereira Moreira João Luiz Dihl Comba 105 1 0 28 Oct 2024
Evaluating LLMs for Targeted Concept Simplification for Domain-Specific Texts Sumit Asthana Hannah Rashkin Elizabeth Clark Fantine Huot Mirella Lapata 76 1 0 28 Oct 2024
Shopping MMLU: A Massive Multi-Task Online Shopping Benchmark for Large Language Models Yilun Jin Zheng Li Chenwei Zhang Tianyu Cao Yifan Gao ... Yi Xu Kai Chen Qiang Yang Meng Jiang Bing Yin RALM 103 3 0 28 Oct 2024
SHARE: Shared Memory-Aware Open-Domain Long-Term Dialogue Dataset Constructed from Movie Script Eunwon Kim Chanho Park Buru Chang 78 2 0 28 Oct 2024
Bridging the Gap between Expert and Language Models: Concept-guided Chess Commentary Generation and Evaluation Jaechang Kim Jinmin Goh Inseok Hwang Jaewoong Cho Jungseul Ok ELM 93 2 0 28 Oct 2024
What Factors Affect Multi-Modal In-Context Learning? An In-Depth Exploration L. Qin Qiguang Chen Hao Fei Zhi Chen Min Li Wanxiang Che 88 11 0 27 Oct 2024
Limitations of the LLM-as-a-Judge Approach for Evaluating LLM Outputs in Expert Knowledge Tasks Annalisa Szymanski Noah Ziems Heather A. Eicher-Miller Tao Li Meng Jiang Ronald A Metoyer ALM ELM 130 28 0 26 Oct 2024
Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization Zhecheng Li Yijiao Wang Bryan Hooi Yujun Cai Naifan Cheung Nanyun Peng Kai-Wei Chang 195 1 0 26 Oct 2024
ArxivDIGESTables: Synthesizing Scientific Literature into Tables using Language Models Benjamin Newman Yoonjoo Lee Aakanksha Naik Pao Siangliulue Raymond Fok Juho Kim Daniel S. Weld Joseph Chee Chang Kyle Lo LMTD 146 4 0 25 Oct 2024
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs Clemencia Siro Yifei Yuan Mohammad Aliannejadi Maarten de Rijke ELM 61 3 0 25 Oct 2024
GeoLLaVA: Efficient Fine-Tuned Vision-Language Models for Temporal Change Detection in Remote Sensing Hosam Elgendy Ahmed Sharshar Ahmed Aboeitta Yasser Ashraf Mohsen Guizani 83 3 0 25 Oct 2024
MAP: Multi-Human-Value Alignment Palette Xinran Wang Qi Le A. N. Ahmed Enmao Diao Yi Zhou Nathalie Baracaldo Jie Ding Ali Anwar 56 5 0 24 Oct 2024
RSA-Control: A Pragmatics-Grounded Lightweight Controllable Text Generation Framework Yifan Wang Vera Demberg 72 1 0 24 Oct 2024
OSCAR: Operating System Control via State-Aware Reasoning and Re-Planning Xiaoqiang Wang Bang Liu LLMAG LM&Ro LRM 118 12 0 24 Oct 2024
DeCoRe: Decoding by Contrasting Retrieval Heads to Mitigate Hallucinations Aryo Pradipta Gema Chen Jin Ahmed Abdulaal Tom Diethe Philip Teare Beatrice Alex Pasquale Minervini Amrutha Saseendran 82 6 0 24 Oct 2024
Demystifying Large Language Models for Medicine: A Primer Qiao Jin Nicholas Wan Robert Leaman Shubo Tian Zhizheng Wang ... Chunhua Weng Ronald M. Summers Qingyu Chen Yifan Peng Zhiyong Lu LM&MA 102 5 0 24 Oct 2024
AgentStore: Scalable Integration of Heterogeneous Agents As Specialized Generalist Computer Assistant Chengyou Jia Minnan Luo Zhuohang Dang Qiushi Sun Fangzhi Xu Junlin Hu Tianbao Xie Zhiyong Wu LLMAG 62 12 0 24 Oct 2024
How Good Are LLMs for Literary Translation, Really? Literary Translation Evaluation with Humans and LLMs Ran Zhang Wei Zhao Steffen Eger 142 10 0 24 Oct 2024
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback Lester James V. Miranda Yizhong Wang Yanai Elazar Sachin Kumar Valentina Pyatkin Faeze Brahman Noah A. Smith Hannaneh Hajishirzi Pradeep Dasigi 138 12 0 24 Oct 2024
Key Algorithms for Keyphrase Generation: Instruction-Based LLMs for Russian Scientific Keyphrases Anna Glazkova Dmitry A. Morozov Timur Garipov 90 0 0 23 Oct 2024
Future Token Prediction -- Causal Language Modelling with Per-Token Semantic State Vector for Multi-Token Prediction Nicholas Walker 63 0 0 23 Oct 2024
MojoBench: Language Modeling and Benchmarks for Mojo Nishat Raihan Joanna C. S. Santos Marcos Zampieri 86 2 0 23 Oct 2024
Image-aware Evaluation of Generated Medical Reports Gefen Dawidowicz Elad Hirsch A. Tal 64 1 0 22 Oct 2024
Assessment of Transformer-Based Encoder-Decoder Model for Human-Like Summarization Sindhu Nair Y. S. Rao Radha Shankarmani 46 1 0 22 Oct 2024
Correct after Answer: Enhancing Multi-Span Question Answering with Post-Processing Method Jiayi Lin Chenyang Zhang Haibo Tong Dongyu Zhang Qingqing Hong Bingxuan Hou Junli Wang 84 0 0 22 Oct 2024
Visual Question Answering in Ophthalmology: A Progressive and Practical Perspective Xiaolan Chen Ruoyu Chen Pusheng Xu Weiyi Zhang Xianwen Shang M. He Danli Shi 81 1 0 22 Oct 2024
MotionGlot: A Multi-Embodied Motion Generation Model Sudarshan Harithas Srinath Sridhar 172 2 0 22 Oct 2024
Science Out of Its Ivory Tower: Improving Accessibility with Reinforcement Learning Haining Wang Jason Clark Hannah McKelvey Leila Sterman Zheng Gao Zuoyu Tian Sandra Kübler Xiaozhong Liu 110 1 0 22 Oct 2024
PODTILE: Facilitating Podcast Episode Browsing with Auto-generated Chapters Azin Ghazimatin Ekaterina Garmash Gustavo Penha Kristen Sheets Martin Achenbach ... Ben Carterette Ann Clifton Paul N. Bennett C. Hauff M. Lalmas 98 4 0 21 Oct 2024
Do Large Language Models Have an English Accent? Evaluating and Improving the Naturalness of Multilingual LLMs Yanzhu Guo Simone Conia Zelin Zhou Min Li Saloni Potdar Henry Xiao 81 3 0 21 Oct 2024
DomainSum: A Hierarchical Benchmark for Fine-Grained Domain Shift in Abstractive Text Summarization Haohan Yuan Haopeng Zhang 57 2 0 21 Oct 2024
OpenMU: Your Swiss Army Knife for Music Understanding Mengjie Zhao Zhi-Wei Zhong Zhuoyuan Mao Shiqi Yang Wei-Hsiang Liao Shusuke Takahashi Hiromi Wakaki Yuki Mitsufuji OSLM 97 8 0 21 Oct 2024
FlexDoc: Flexible Document Adaptation through Optimizing both Content and Layout Yue Jiang C. Lutteroth R. Jain Christopher Tensmeyer Varun Manjunatha W. Stuerzlinger Vlad I. Morariu 33 1 0 20 Oct 2024
Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence Norbert Tihanyi Tamás Bisztray Richard A. Dubniczky Rebeka Tóth B. Borsos ... Ryan Marinelli Lucas C. Cordeiro Merouane Debbah Vasileios Mavroeidis Audun Josang 95 5 0 20 Oct 2024
CalibraEval: Calibrating Prediction Distribution to Mitigate Selection Bias in LLMs-as-Judges Haitao Li Junjie Chen Qingyao Ai Zhumin Chu Yujia Zhou Qian Dong Yiqun Liu 83 8 0 20 Oct 2024