Title
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong Xuzhao Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Tianwei Zhang ALM ELM 86 2 0 26 Apr 2025
SMARTFinRAG: Interactive Modularized Financial RAG Benchmark Yiwei Zha 172 0 0 25 Apr 2025
DMind Benchmark: Toward a Holistic Assessment of LLM Capabilities across the Web3 Domain Miracle Master Rainy Sun Anya Reese Joey Ouyang Alex Chen ... James Yi Garry Zhao Tony Ling Hobert Wong Lowes Yang ALM ELM 77 0 0 18 Apr 2025
Evaluating Large Language Models for Public Health Classification and Extraction Tasks Joshua Harris Timothy Laurence Leo Loman Fan Grayson Toby Nonnenmacher ... Hamish Mohammed Thomas Finnie Luke Hounsome Michael Borowitz Steven Riley LM&MA AI4MH 83 5 0 20 Feb 2025
Are Language Models Up to Sequential Optimization Problems? From Evaluation to a Hegelian-Inspired Enhancement Soheil Abbasloo LRM 44 0 0 04 Feb 2025
FAMMA: A Benchmark for Financial Domain Multilingual Multimodal Question Answering Siqiao Xue Tingting Chen Fan Zhou Qingyang Dai Zhixuan Chu Hongyuan Mei 41 4 0 06 Oct 2024
Can Large Language Models Analyze Graphs like Professionals? A Benchmark, Datasets and Models Xin Sky Li Weize Chen Qizhi Chu Haopeng Li Zhaojun Sun ... Yiwei Wei Zhiyuan Liu Chuan Shi Maosong Sun Cheng Yang 40 5 0 29 Sep 2024
Are Large Language Models True Healthcare Jacks-of-All-Trades? Benchmarking Across Health Professions Beyond Physician Exams Zheheng Luo Chenhan Yuan Qianqian Xie Sophia Ananiadou ELM AI4MH LM&MA 49 0 0 17 Jun 2024
JaFIn: Japanese Financial Instruction Dataset Kota Tanabe Masahiro Suzuki Hiroki Sakaji Itsuki Noda 47 1 0 14 Apr 2024
The Falcon Series of Open Language Models Ebtesam Almazrouei Hamza Alobeidli Abdulaziz Alshamsi Alessandro Cappelli Ruxandra-Aimée Cojocaru ... Quentin Malartic Daniele Mazzotta Badreddine Noune B. Pannier Guilherme Penedo AI4TS ALM 121 404 0 28 Nov 2023
FinMem: A Performance-Enhanced LLM Trading Agent with Layered Memory and Character Design Yangyang Yu Haohang Li Zhi Chen Yuechen Jiang Yang Li Denghui Zhang Rong Liu Jordan W. Suchow K. Khashanah 44 59 0 23 Nov 2023
DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple Experts Fine-tuning Wei Chen Qiushi Wang Zefei Long Xianyin Zhang Zhongtian Lu ... Siyuan Wang Jiarong Xu Xiang Bai Xuanjing Huang Zhongyu Wei 83 43 0 23 Oct 2023
Sparks of Artificial General Intelligence: Early experiments with GPT-4 Sébastien Bubeck Varun Chandrasekaran Ronen Eldan J. Gehrke Eric Horvitz ... Scott M. Lundberg Harsha Nori Hamid Palangi Marco Tulio Ribeiro Yi Zhang ELM AI4MH AI4CE ALM 322 3,021 0 22 Mar 2023
ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts Rajdeep Mukherjee Abhinav Bohra Akash Banerjee Soumya Sharma Manjunath Hegde ... Shivani Shrivastava Koustuv Dasgupta Niloy Ganguly Saptarshi Ghosh Pawan Goyal RALM 41 44 0 22 Oct 2022