Title
Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks Yixin Cao Shibo Hong Xuzhao Li Jiahao Ying Yubo Ma ... Juanzi Li Aixin Sun Xuanjing Huang Tat-Seng Chua Tianwei Zhang ALM ELM 86 2 0 26 Apr 2025
TiC-LM: A Web-Scale Benchmark for Time-Continual LLM Pretraining Jeffrey Li Mohammadreza Armandpour Iman Mirzadeh Sachin Mehta Vaishaal Shankar ... Samy Bengio Oncel Tuzel Mehrdad Farajtabar Hadi Pouransari Fartash Faghri CLL KELM 61 0 0 02 Apr 2025
MTPChat: A Multimodal Time-Aware Persona Dataset for Conversational Agents Wanqi Yang Yongqian Li Meng Fang L. Chen 64 1 0 09 Feb 2025
Generative Adapter: Contextualizing Language Models in Parameters with A Single Forward Pass Tong Chen Hao Fang Patrick Xia Xiaodong Liu Benjamin Van Durme Luke Zettlemoyer Jianfeng Gao Hao Cheng KELM 53 2 0 08 Nov 2024
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains Yein Park Chanwoong Yoon Jungwoo Park Donghyeon Lee Minbyul Jeong Jaewoo Kang KELM 61 1 0 13 Oct 2024
CHEW: A Dataset of CHanging Events in Wikipedia Hsuvas Borkakoty Luis Espinosa-Anke 48 1 0 27 Jun 2024
Temporal Knowledge Graph Question Answering: A Survey Miao Su Zixuan Li Zhuo Chen Long Bai Xiaolong Jin Jiafeng Guo 58 2 0 20 Jun 2024
From Matching to Generation: A Survey on Generative Information Retrieval Xiaoxi Li Jiajie Jin Yujia Zhou Yuyao Zhang Peitian Zhang Yutao Zhu Zhicheng Dou 3DV 84 46 0 23 Apr 2024
AdapterSwap: Continuous Training of LLMs with Data Removal and Access-Control Guarantees William Fleshman Aleem Khan Marc Marone Benjamin Van Durme CLL KELM 58 3 0 12 Apr 2024
ChroniclingAmericaQA: A Large-scale Question Answering Dataset based on Historical American Newspaper Pages Bhawna Piryani Jamshid Mozafari Adam Jatowt RALM 33 8 0 26 Mar 2024
Two-stage Generative Question Answering on Temporal Knowledge Graph Using Large Language Models Yifu Gao Linbo Qiao Zhigang Kan Zhihua Wen Yongquan He Dongsheng Li 57 6 0 26 Feb 2024
Does the Generator Mind its Contexts? An Analysis of Generative Model Faithfulness under Context Transfer Xinshuo Hu Baotian Hu Dongfang Li Xiaoguang Li Lifeng Shang HILM 25 1 0 22 Feb 2024
R-Tuning: Instructing Large Language Models to Say `I Don't Know' Hanning Zhang Shizhe Diao Yong Lin Yi Ren Fung Qing Lian Xingyao Wang Yangyi Chen Heng Ji Tong Zhang UQLM 39 37 0 16 Nov 2023
MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models Yifan Wei Yisong Su Huanhuan Ma Xiaoyan Yu Fangyu Lei Yuanzhe Zhang Jun Zhao Kang Liu LRM 22 10 0 08 Oct 2023
Siren's Song in the AI Ocean: A Survey on Hallucination in Large Language Models Yue Zhang Yafu Li Leyang Cui Deng Cai Lemao Liu ... Longyue Wang A. Luu Wei Bi Freda Shi Shuming Shi RALM LRM HILM 46 520 0 03 Sep 2023
RaLLe: A Framework for Developing and Evaluating Retrieval-Augmented Large Language Models Yasuto Hoshi Daisuke Miyashita Youyang Ng Kento Tatsuno Yasuhiro Morioka Osamu Torii J. Deguchi LRM 32 12 0 21 Aug 2023
Dynamic Benchmarking of Masked Language Models on Temporal Concept Drift with Multiple Views Katerina Margatina Shuai Wang Yogarshi Vyas Neha Ann John Yassine Benajiba Miguel Ballesteros 17 15 0 23 Feb 2023
NEVIS'22: A Stream of 100 Tasks Sampled from 30 Years of Computer Vision Research J. Bornschein Alexandre Galashov Ross Hemsley Amal Rannen-Triki Yutian Chen ... Angeliki Lazaridou Yee Whye Teh Andrei A. Rusu Razvan Pascanu MarcÁurelio Ranzato OOD VLM AI4TS 39 16 0 15 Nov 2022
The future is different: Large pre-trained language models fail in prediction tasks K. Cvejoski Ramses J. Sanchez C. Ojeda 22 3 0 01 Nov 2022
Mass-Editing Memory in a Transformer Kevin Meng Arnab Sen Sharma A. Andonian Yonatan Belinkov David Bau KELM VLM 35 525 0 13 Oct 2022
Improving alignment of dialogue agents via targeted human judgements Amelia Glaese Nat McAleese Maja Trkebacz John Aslanides Vlad Firoiu ... John F. J. Mellor Demis Hassabis Koray Kavukcuoglu Lisa Anne Hendricks G. Irving ALM AAML 227 502 0 28 Sep 2022
RealTime QA: What's the Answer Right Now? Jungo Kasai Keisuke Sakaguchi Yoichi Takahashi Ronan Le Bras Akari Asai Xinyan Velocity Yu Dragomir R. Radev Noah A. Smith Yejin Choi Kentaro Inui KELM 45 165 0 27 Jul 2022
Towards Continual Knowledge Learning of Language Models Joel Jang Seonghyeon Ye Sohee Yang Joongbo Shin Janghoon Han Gyeonghun Kim Stanley Jungkyu Choi Minjoon Seo CLL KELM 230 151 0 07 Oct 2021
Complex Temporal Question Answering on Knowledge Graphs Zhen Jia Soumajit Pramanik Rishiraj Saha Roy G. Weikum 233 104 0 18 Sep 2021