Title
Evaluating LLMs at Detecting Errors in LLM Responses Ryo Kamoi Sarkar Snigdha Sarathi Das Renze Lou Jihyun Janice Ahn Yilun Zhao ... Salika Dave Shaobo Qin Arman Cohan Wenpeng Yin Rui Zhang 44 21 0 04 Apr 2024
Risks from Language Models for Automated Mental Healthcare: Ethics and Structure for Implementation Declan Grabb Max Lamparth N. Vasan 48 15 0 02 Apr 2024
NovelQA: Benchmarking Question Answering on Documents Exceeding 200K Tokens Cunxiang Wang Ruoxi Ning Boqi Pan Tonghui Wu Qipeng Guo ... Guangsheng Bao Xiangkun Hu Zheng Zhang Qian Wang Yue Zhang RALM 106 4 0 18 Mar 2024
Training-Free Long-Context Scaling of Large Language Models Chen An Fei Huang Jun Zhang Shansan Gong Xipeng Qiu Chang Zhou Lingpeng Kong ALM LRM 40 35 0 27 Feb 2024
Long Dialog Summarization: An Analysis Ankan Mullick Ayan Kumar Bhowmick R. Raghav Ravi Kokku Prasenjit Dey Pawan Goyal Niloy Ganguly 24 1 0 26 Feb 2024
Long-Context Language Modeling with Parallel Context Encoding Howard Yen Tianyu Gao Danqi Chen 40 43 0 26 Feb 2024
A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts Kuang-Huei Lee Xinyun Chen Hiroki Furuta John F. Canny Ian S. Fischer RALM 55 29 0 15 Feb 2024
Early Time Classification with Accumulated Accuracy Gap Control Liran Ringel Regev Cohen Daniel Freedman Michael Elad Yaniv Romano 29 6 0 01 Feb 2024
Two Stones Hit One Bird: Bilevel Positional Encoding for Better Length Extrapolation Zhenyu He Guhao Feng Shengjie Luo Kai-Bo Yang Liwei Wang Jingjing Xu Zhi Zhang Hongxia Yang Di He 32 14 0 29 Jan 2024
Retrieval-Augmented Generation for Large Language Models: A Survey Yunfan Gao Yun Xiong Xinyu Gao Kangxiang Jia Jinliu Pan Yuxi Bi Yi Dai Jiawei Sun Meng Wang Haofen Wang 3DV RALM 64 1,552 1 18 Dec 2023
Playing Large Games with Oracles and AI Debate Xinyi Chen Angelica Chen Dean Foster Elad Hazan 38 3 0 08 Dec 2023
Hashmarks: Privacy-Preserving Benchmarks for High-Stakes AI Evaluation P. Bricman 24 0 0 01 Dec 2023
ChatGPT's One-year Anniversary: Are Open-Source Large Language Models Catching up? Hailin Chen Fangkai Jiao Xingxuan Li Chengwei Qin Mathieu Ravaut Ruochen Zhao Caiming Xiong Shafiq Joty ELM CLL AI4MH LRM ALM 85 27 0 28 Nov 2023
GPQA: A Graduate-Level Google-Proof Q&A Benchmark David Rein Betty Li Hou Asa Cooper Stickland Jackson Petty Richard Yuanzhe Pang Julien Dirani Julian Michael Samuel R. Bowman AI4MH ELM 48 492 0 20 Nov 2023
AutoMix: Automatically Mixing Language Models Pranjal Aggarwal Aman Madaan Ankit Anand Srividya Pranavi Potharaju Swaroop Mishra ... Karthik Kappaganthu Yiming Yang Shyam Upadhyay Manaal Faruqui Mausam 42 19 0 19 Oct 2023
Training Generative Question-Answering on Synthetic Data Obtained from an Instruct-tuned Model Kosuke Takahashi Takahiro Omi Kosuke Arima Tatsuya Ishigaki 28 0 0 12 Oct 2023
Scaling Laws of RoPE-based Extrapolation Xiaoran Liu Hang Yan Shuo Zhang Chen An Xipeng Qiu Dahua Lin 23 83 0 08 Oct 2023
Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading Howard Chen Ramakanth Pasunuru Jason Weston Asli Celikyilmaz RALM 68 73 0 08 Oct 2023
Retrieval meets Long Context Large Language Models Peng Xu Ming-Yu Liu Xianchao Wu Lawrence C. McAfee Chen Zhu Zihan Liu Sandeep Subramanian Evelina Bakhturina M. Shoeybi Bryan Catanzaro RALM LRM 14 82 0 04 Oct 2023
Effective Long-Context Scaling of Foundation Models Wenhan Xiong Jingyu Liu Igor Molybog Hejia Zhang Prajjwal Bhargava ... Dániel Baráth Sergey Edunov Mike Lewis Sinong Wang Hao Ma 37 207 0 27 Sep 2023
BAMBOO: A Comprehensive Benchmark for Evaluating Long Text Modeling Capacities of Large Language Models Zican Dong Tianyi Tang Junyi Li Wayne Xin Zhao Ji-Rong Wen RALM ALM 33 34 0 23 Sep 2023
Investigating Answerability of LLMs for Long-Form Question Answering Meghana Moorthy Bhat Rui Meng Ye Liu Yingbo Zhou Semih Yavuz 24 10 0 15 Sep 2023
Chunk, Align, Select: A Simple Long-sequence Processing Method for Transformers Jiawen Xie Pengyu Cheng Xiao Liang Yong Dai Nan Du 42 7 0 25 Aug 2023
L-Eval: Instituting Standardized Evaluation for Long Context Language Models Chen An Shansan Gong Ming Zhong Xingjian Zhao Mukai Li Jun Zhang Lingpeng Kong Xipeng Qiu ELM ALM 45 135 0 20 Jul 2023
When to Use Efficient Self Attention? Profiling Text, Speech and Image Transformer Variants Anuj Diwan Eunsol Choi David Harwath 54 0 0 14 Jun 2023
Long Text Generation Challenge N. Mikhaylovskiy ALM 16 0 0 04 Jun 2023
PEARL: Prompting Large Language Models to Plan and Execute Actions Over Long Documents Simeng Sun Y. Liu Shuohang Wang Chenguang Zhu Mohit Iyyer RALM LRM ReLM 33 52 0 23 May 2023
ZeroSCROLLS: A Zero-Shot Benchmark for Long Text Understanding Uri Shaham Maor Ivgi Avia Efrat Jonathan Berant Omer Levy VLM 46 127 0 23 May 2023
NarrativeXL: A Large-scale Dataset For Long-Term Memory Models A. Moskvichev Ky-Vinh Mai RALM 18 1 0 23 May 2023
A Memory Model for Question Answering from Streaming Data Supported by Rehearsal and Anticipation of Coreference Information Vladimir Araujo Alvaro Soto Marie-Francine Moens KELM 22 2 0 12 May 2023
Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing Important Tokens Zhanpeng Zeng Cole Hawkins Min-Fong Hong Aston Zhang Nikolaos Pappas Vikas Singh Shuai Zheng 21 6 0 07 May 2023
Scaling Transformer to 1M tokens and beyond with RMT Aydar Bulatov Yuri Kuratov Yermek Kapushev Andrey Kravchenko LRM 25 87 0 19 Apr 2023
CoLT5: Faster Long-Range Transformers with Conditional Computation Joshua Ainslie Tao Lei Michiel de Jong Santiago Ontañón Siddhartha Brahma ... Mandy Guo James Lee-Thorp Yi Tay Yun-hsuan Sung Sumit Sanghai LLMAG 36 63 0 17 Mar 2023
MQAG: Multiple-choice Question Answering and Generation for Assessing Information Consistency in Summarization Potsawee Manakul Adian Liusie Mark Gales HILM 21 35 0 28 Jan 2023
World Knowledge in Multiple Choice Reading Comprehension Adian Liusie Vatsal Raina Mark Gales 24 7 0 13 Nov 2022
What is Wrong with Language Models that Can Not Tell a Story? Ivan P. Yamshchikov Alexey Tikhonov 32 6 0 09 Nov 2022
Measuring Progress on Scalable Oversight for Large Language Models Sam Bowman Jeeyoon Hyun Ethan Perez Edwin Chen Craig Pettit ... Tristan Hume Yuntao Bai Zac Hatfield-Dodds Benjamin Mann Jared Kaplan ALM ELM 28 123 0 04 Nov 2022
LittleBird: Efficient Faster & Longer Transformer for Question Answering Minchul Lee Kijong Han M. Shin VLM 23 5 0 21 Oct 2022
Two-Turn Debate Doesn't Help Humans Answer Hard Reading Comprehension Questions Alicia Parrish H. Trivedi Nikita Nangia Vishakh Padmakumar Jason Phang Amanpreet Singh Saimbhi Sam Bowman 13 11 0 19 Oct 2022
An Exploration of Hierarchical Attention Transformers for Efficient Long Document Classification Ilias Chalkidis Xiang Dai Manos Fergadiotis Prodromos Malakasiotis Desmond Elliott 39 34 0 11 Oct 2022
Adapting Pretrained Text-to-Text Models for Long Text Sequences Wenhan Xiong Anchit Gupta Shubham Toshniwal Yashar Mehdad Wen-tau Yih RALM VLM 62 30 0 21 Sep 2022
Efficient Long-Text Understanding with Short-Text Models Maor Ivgi Uri Shaham Jonathan Berant VLM 38 76 0 01 Aug 2022
Language Models (Mostly) Know What They Know Saurav Kadavath Tom Conerly Amanda Askell T. Henighan Dawn Drain ... Nicholas Joseph Benjamin Mann Sam McCandlish C. Olah Jared Kaplan ELM 59 722 0 11 Jul 2022
SQuALITY: Building a Long-Document Summarization Dataset the Hard Way Alex Jinpeng Wang Richard Yuanzhe Pang Angelica Chen Jason Phang Samuel R. Bowman 78 44 0 23 May 2022
UL2: Unifying Language Learning Paradigms Yi Tay Mostafa Dehghani Vinh Q. Tran Xavier Garcia Jason W. Wei ... Tal Schuster H. Zheng Denny Zhou N. Houlsby Donald Metzler AI4CE 71 298 0 10 May 2022
ChapterBreak: A Challenge Dataset for Long-Range Language Models Simeng Sun Katherine Thai Mohit Iyyer 18 19 0 22 Apr 2022
Single-Turn Debate Does Not Help Humans Answer Hard Reading-Comprehension Questions Alicia Parrish H. Trivedi Ethan Perez Angelica Chen Nikita Nangia Jason Phang Sam Bowman 25 14 0 11 Apr 2022
TRUE: Re-evaluating Factual Consistency Evaluation Or Honovich Roee Aharoni Jonathan Herzig Hagai Taitelbaum Doron Kukliansy Vered Cohen Thomas Scialom Idan Szpektor Avinatan Hassidim Yossi Matias HILM 35 3 0 11 Apr 2022
Token Dropping for Efficient BERT Pretraining Le Hou Richard Yuanzhe Pang Dinesh Manocha Yuexin Wu Xinying Song Xiaodan Song Denny Zhou 22 43 0 24 Mar 2022
Teaching language models to support answers with verified quotes Jacob Menick Maja Trebacz Vladimir Mikulik John Aslanides Francis Song ... Mia Glaese Susannah Young Lucy Campbell-Gillingham G. Irving Nat McAleese ELM RALM 251 259 0 21 Mar 2022