v1v2 (latest)

TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

9 May 2017

Luke Zettlemoyer

Papers citing "TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension"

50 / 1,823 papers shown

Title
Adaptation with Self-Evaluation to Improve Selective Prediction in LLMs Jiefeng Chen Jinsung Yoon Sayna Ebrahimi Sercan O. Arik Tomas Pfister Somesh Jha 62 33 0 18 Oct 2023
Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection Akari Asai Zeqiu Wu Yizhong Wang Avirup Sil Hannaneh Hajishirzi RALM 283 783 0 17 Oct 2023
NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear Domain Anurag Acharya Sai Munikoti Aaron Hellinger Sara Smith S. Wagle Sameera Horawalavithana ELM 105 3 0 17 Oct 2023
In-context Pretraining: Language Modeling Beyond Document Boundaries Weijia Shi Sewon Min Maria Lomeli Chunting Zhou Margaret Li ... Victoria Lin Noah A. Smith Luke Zettlemoyer Scott Yih Mike Lewis LRM RALM SyDa 135 56 0 16 Oct 2023
KGQuiz: Evaluating the Generalization of Encoded Knowledge in Large Language Models Yuyang Bai Shangbin Feng Vidhisha Balachandran Zhaoxuan Tan Shiqi Lou Tianxing He Yulia Tsvetkov ELM 95 3 0 15 Oct 2023
Instruction Tuning with Human Curriculum Bruce W. Lee Hyunsoo Cho Kang Min Yoo 92 4 0 14 Oct 2023
SeqXGPT: Sentence-Level AI-Generated Text Detection Pengyu Wang Linyang Li Ke Ren Botian Jiang Dong Zhang Xipeng Qiu DeLMO 105 60 0 13 Oct 2023
Tokenizer Choice For LLM Training: Negligible or Crucial? Mehdi Ali Michael Fromm Klaudia Thellmann Richard Rutmann Max Lübbering ... Malte Ostendorff Samuel Weinbach R. Sifa Stefan Kesselheim Nicolas Flores-Herr 116 61 0 12 Oct 2023
Formally Specifying the High-Level Behavior of LLM-Based Agents Mayank Agarwal Ibrahim Abdelaziz Ramón Fernández Astudillo Kinjal Basu Soham Dan Yara Rizk Achille Fokoue Pavan Kapanipathi Salim Roukos Luis A. Lastras LLMAG 45 8 0 12 Oct 2023
InstructRetro: Instruction Tuning post Retrieval-Augmented Pretraining Wei Ping Ming-Yu Liu Lawrence C. McAfee Peng Xu Bo Li Mohammad Shoeybi Bryan Catanzaro RALM 118 54 0 11 Oct 2023
MatFormer: Nested Transformer for Elastic Inference Devvrit Sneha Kudugunta Aditya Kusupati Tim Dettmers Kaifeng Chen ... Yulia Tsvetkov Hannaneh Hajishirzi Sham Kakade Ali Farhadi Prateek Jain 114 31 0 11 Oct 2023
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity Cunxiang Wang Xiaoze Liu Yuanhao Yue Xiangru Tang Tianhang Zhang ... Linyi Yang Jindong Wang Xing Xie Zheng Zhang Yue Zhang HILM KELM 172 202 0 11 Oct 2023
CacheGen: KV Cache Compression and Streaming for Fast Language Model Serving Yuhan Liu Hanchen Li Yihua Cheng Siddhant Ray Yuyang Huang ... Ganesh Ananthanarayanan Michael Maire Henry Hoffmann Ari Holtzman Junchen Jiang 130 53 0 11 Oct 2023
Mistral 7B Albert Q. Jiang Alexandre Sablayrolles A. Mensch Chris Bamford Devendra Singh Chaplot ... Teven Le Scao Thibaut Lavril Thomas Wang Timothée Lacroix William El Sayed MoE LRM 166 2,266 0 10 Oct 2023
Hexa: Self-Improving for Knowledge-Grounded Dialogue System DaeJin Jo D. W. Nam Gunsoo Han Kyoung-Woon On Taehwan Kwon Seungeun Rho Sungwoong Kim 57 0 0 10 Oct 2023
A Bias-Variance-Covariance Decomposition of Kernel Scores for Generative Models Sebastian G. Gruber Florian Buettner UQCV UD 71 1 0 09 Oct 2023
Scaling Laws of RoPE-based Extrapolation Xiaoran Liu Hang Yan Shuo Zhang Chen An Xipeng Qiu Dahua Lin 95 89 0 08 Oct 2023
Retrieval-Generation Synergy Augmented Large Language Models Zhangyin Feng Xiaocheng Feng Dezhi Zhao Maojin Yang Bing Qin LRM RALM 51 31 0 08 Oct 2023
MinPrompt: Graph-based Minimal Prompt Data Augmentation for Few-shot Question Answering Xiusi Chen Jyun-Yu Jiang Wei-Cheng Chang Cho-Jui Hsieh Hsiang-Fu Yu Wei Wang 108 12 0 08 Oct 2023
Large Language Models Only Pass Primary School Exams in Indonesia: A Comprehensive Test on IndoMMLU Fajri Koto Nurul Aisyah Haonan Li Timothy Baldwin AI4Ed LRM ELM 104 46 0 07 Oct 2023
The Cost of Down-Scaling Language Models: Fact Recall Deteriorates before In-Context Learning Tian Jin Nolan Clement Xin Dong Vaishnavh Nagarajan Michael Carbin Jonathan Ragan-Kelley Gintare Karolina Dziugaite LRM 105 5 0 07 Oct 2023
RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation Fangyuan Xu Weijia Shi Eunsol Choi RALM 117 166 0 06 Oct 2023
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation Tu Vu Mohit Iyyer Xuezhi Wang Noah Constant Jerry W. Wei ... Chris Tar Yun-hsuan Sung Denny Zhou Quoc Le Thang Luong KELM HILM LRM 137 219 0 05 Oct 2023
CITING: Large Language Models Create Curriculum for Instruction Tuning Tao Feng Zifeng Wang Jimeng Sun ALM 97 15 0 04 Oct 2023
Can Language Models be Instructed to Protect Personal Information? Yang Chen Ethan Mendes Sauvik Das Wei Xu Alan Ritter PILM 77 37 0 03 Oct 2023
Benchmarking and Improving Generator-Validator Consistency of Language Models Xiang Lisa Li Vaishnavi Shrivastava Siyan Li Tatsunori Hashimoto Percy Liang 89 31 0 03 Oct 2023
Compressing LLMs: The Truth is Rarely Pure and Never Simple Ajay Jaiswal Zhe Gan Xianzhi Du Bowen Zhang Zhangyang Wang Yinfei Yang MQ 130 50 0 02 Oct 2023
RA-DIT: Retrieval-Augmented Dual Instruction Tuning Xi Lin Xilun Chen Mingda Chen Weijia Shi Maria Lomeli ... Jacob Kahn Gergely Szilvasy Mike Lewis Luke Zettlemoyer Scott Yih RALM 159 157 0 02 Oct 2023
BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models Qingqing Cao Sewon Min Yizhong Wang Hannaneh Hajishirzi MQ RALM 81 5 0 02 Oct 2023
Knowledge Crosswords: Geometric Knowledge Reasoning with Large Language Models Wenxuan Ding Shangbin Feng Yuhan Liu Zhaoxuan Tan Vidhisha Balachandran Tianxing He Yulia Tsvetkov LRM 79 6 0 02 Oct 2023
Do Compressed LLMs Forget Knowledge? An Experimental Study with Practical Implications Duc Hoang Minsik Cho Thomas Merth Mohammad Rastegari Zhangyang Wang KELM CLL 93 5 0 02 Oct 2023
Error Norm Truncation: Robust Training in the Presence of Data Noise for Text Generation Models Tianjian Li Haoran Xu Philipp Koehn Daniel Khashabi Kenton W. Murray 88 4 0 02 Oct 2023
Necessary and Sufficient Watermark for Large Language Models Yuki Takezawa Ryoma Sato Han Bao Kenta Niwa Makoto Yamada WaLM 137 8 0 02 Oct 2023
AutoAgents: A Framework for Automatic Agent Generation Guangyao Chen Siwei Dong Yu Shu Ge Zhang Jaward Sesay Börje F. Karlsson Jie Fu Yemin Shi LLMAG 124 130 0 29 Sep 2023
GPT-Fathom: Benchmarking Large Language Models to Decipher the Evolutionary Path towards GPT-4 and Beyond Timothée Darcet Yuyu Zhang Yijie Zhu Chenguang Xi Pengyang Gao Piotr Bojanowski Kevin Chen-Chuan Chang ELM 68 24 0 28 Sep 2023
Effective Long-Context Scaling of Foundation Models Wenhan Xiong Jingyu Liu Igor Molybog Hejia Zhang Prajjwal Bhargava ... Dániel Baráth Sergey Edunov Mike Lewis Sinong Wang Hao Ma 148 231 0 27 Sep 2023
Knowledge Sanitization of Large Language Models Yoichi Ishibashi Hidetoshi Shimodaira KELM 129 25 0 21 Sep 2023
BTLM-3B-8K: 7B Parameter Performance in a 3B Parameter Model Nolan Dey Daria Soboleva Faisal Al-Khateeb Bowen Yang Ribhu Pathria ... Robert Myers Jacob Robert Steeves Natalia Vassilieva Marvin Tom Joel Hestness MoE 87 16 0 20 Sep 2023
Are Large Language Models Really Robust to Word-Level Perturbations? Haoyu Wang Guozheng Ma Cong Yu Ning Gui Linrui Zhang ... Sen Zhang Li Shen Xueqian Wang Peilin Zhao Dacheng Tao KELM 109 24 0 20 Sep 2023
QASnowball: An Iterative Bootstrapping Framework for High-Quality Question-Answering Data Generation Kunlun Zhu Shihao Liang Xu Han Zhi Zheng Guoyang Zeng Zhiyuan Liu Maosong Sun 91 2 0 19 Sep 2023
Contrastive Decoding Improves Reasoning in Large Language Models Sean O'Brien Mike Lewis SyDa LRM ReLM 102 39 0 17 Sep 2023
Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large Language Models for Dynamic Inference Parsa Kavehzadeh Mojtaba Valipour Marzieh S. Tahaei Ali Ghodsi Boxing Chen Mehdi Rezagholizadeh 89 6 0 16 Sep 2023
Rethinking Learning Rate Tuning in the Era of Large Language Models Hongpeng Jin Wenqi Wei Xuyu Wang Wenbin Zhang Yanzhao Wu 75 11 0 16 Sep 2023
Unleashing Potential of Evidence in Knowledge-Intensive Dialogue Generation Xianjie Wu Jian Yang Tongliang Li Di Liang Shiwei Zhang Yiyang Du Zhoujun Li HILM 55 2 0 15 Sep 2023
CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration Rachneet Sachdeva Martin Tutek Iryna Gurevych OODD 102 13 0 14 Sep 2023
Quantifying and Attributing the Hallucination of Large Language Models via Association Analysis Li Du Yequan Wang Xingrun Xing Yiqun Ya Xiang Li Xin Jiang Xuezhi Fang HILM 52 13 0 11 Sep 2023
GenAIPABench: A Benchmark for Generative AI-based Privacy Assistants Aamir Hamid Hemanth Reddy Samidi Tim Finin Primal Pappachan Roberto Yus ELM 56 8 0 10 Sep 2023
Aligning Large Language Models for Clinical Tasks Supun Manathunga Isuru Hettigoda LM&MA ELM AI4MH 92 11 0 06 Sep 2023
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants Lucas Bandarkar Davis Liang Benjamin Muller Mikel Artetxe Satya Narayan Shukla Don Husa Naman Goyal Abhinandan Krishnan Luke Zettlemoyer Madian Khabsa 126 157 0 31 Aug 2023
Quantifying Uncertainty in Answers from any Language Model and Enhancing their Trustworthiness Jiuhai Chen Jonas W. Mueller 135 71 0 30 Aug 2023