v1v2 (latest)

TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension

9 May 2017

Luke Zettlemoyer

Papers citing "TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension"

50 / 1,823 papers shown

Title
MEMORY-VQ: Compression for Tractable Internet-Scale Memory Yury Zemlyanskiy Michiel de Jong Luke Vilnis Santiago Ontañón William W. Cohen Sumit Sanghai Joshua Ainslie RALM MQ 80 0 0 28 Aug 2023
LongBench: A Bilingual, Multitask Benchmark for Long Context Understanding Yushi Bai Xin Lv Jiajie Zhang Hong Lyu Jiankai Tang ... Aohan Zeng Lei Hou Yuxiao Dong Jie Tang Juanzi Li LLMAG RALM 121 605 0 28 Aug 2023
Examining User-Friendly and Open-Sourced Large GPT Models: A Survey on Language, Multimodal, and Scientific GPT Models Kaiyuan Gao Su He Zhenyu He Jiacheng Lin Qizhi Pei Jie Shao Wei Zhang LM&MA SyDa 68 5 0 27 Aug 2023
Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and Vulnerabilities Maximilian Mozes Xuanli He Bennett Kleinberg Lewis D. Griffin 87 87 0 24 Aug 2023
Imaginations of WALL-E : Reconstructing Experiences with an Imagination-Inspired Module for Advanced AI Systems Zeinab Taghavi S. Gooran Seyed Arshan Dalili Hamidreza Amirzadeh Mohammad Jalal Nematbakhsh Hossein Sameti 48 2 0 20 Aug 2023
Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs? Kai Sun Yongjun Xu Hanwen Zha Yue Liu Xinhsuai Dong AI4MH 140 148 0 20 Aug 2023
Evaluating the Instruction-Following Robustness of Large Language Models to Prompt Injection Zekun Li Baolin Peng Pengcheng He Xifeng Yan ELM SILM AAML 119 29 0 17 Aug 2023
Answering Ambiguous Questions with a Database of Questions, Answers, and Revisions Haitian Sun William W. Cohen Ruslan Salakhutdinov 52 4 0 16 Aug 2023
RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models Jie Huang Ming-Yu Liu Peng Xu Mohammad Shoeybi Kevin Chen-Chuan Chang Bryan Catanzaro RALM 115 35 0 15 Aug 2023
Through the Lens of Core Competency: Survey on Evaluation of Large Language Models Ziyu Zhuang Qiguang Chen Longxuan Ma Mingda Li Yi Han Yushan Qian Haopeng Bai Zixian Feng Weinan Zhang Ting Liu ELM 80 13 0 15 Aug 2023
Building Interpretable and Reliable Open Information Retriever for New Domains Overnight Xiaodong Yu Ben Zhou Dan Roth RALM 48 1 0 09 Aug 2023
Shepherd: A Critic for Language Model Generation Tianlu Wang Ping Yu Xiaoqing Ellen Tan Sean O'Brien Ramakanth Pasunuru Jane Dwivedi-Yu O. Yu. Golovneva Luke Zettlemoyer Maryam Fazel-Zarandi Asli Celikyilmaz ALM 84 87 0 08 Aug 2023
AgentBench: Evaluating LLMs as Agents Xiao Liu Hao Yu Hanchen Zhang Yifan Xu Xuanyu Lei ... Yu-Chuan Su Huan Sun Minlie Huang Yuxiao Dong Jie Tang ELM LLMAG 158 315 0 07 Aug 2023
Teaching Smaller Language Models To Generalise To Unseen Compositional Questions Tim Hartill N. Tan Michael Witbrock Patricia J. Riddle ReLM KELM LRM 88 2 0 02 Aug 2023
HAGRID: A Human-LLM Collaborative Dataset for Generative Information-Seeking with Attribution Ehsan Kamalloo A. Jafari Xinyu Crystina Zhang Nandan Thakur Jimmy J. Lin 70 44 0 31 Jul 2023
Evaluating Correctness and Faithfulness of Instruction-Following Models for Question Answering Vaibhav Adlakha Parishad BehnamGhader Xing Han Lù Nicholas Meade Siva Reddy 109 129 0 31 Jul 2023
Three Bricks to Consolidate Watermarks for Large Language Models Pierre Fernandez Antoine Chaffin Karim Tit Vivien Chappelier Teddy Furon WaLM 120 55 0 26 Jul 2023
MythQA: Query-Based Large-Scale Check-Worthy Claim Detection through Multi-Answer Open-Domain Question Answering Yang Bai Anthony Colas D. Wang HILM 53 2 0 21 Jul 2023
Generator-Retriever-Generator Approach for Open-Domain Question Answering Abdelrahman Abdallah Adam Jatowt RALM 89 12 0 21 Jul 2023
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation Ruiyang Ren Yuhao Wang Yingqi Qu Wayne Xin Zhao Qingbin Liu Hao Tian Huaqin Wu Ji-Rong Wen Haifeng Wang RALM KELM 129 136 0 20 Jul 2023
Thrust: Adaptively Propels Large Language Models with External Knowledge Xinran Zhao Hongming Zhang Xiaoman Pan Wenlin Yao Dong Yu Jianshu Chen KELM 167 5 0 19 Jul 2023
Llama 2: Open Foundation and Fine-Tuned Chat Models Hugo Touvron Louis Martin Kevin R. Stone Peter Albert Amjad Almahairi ... Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov Thomas Scialom AI4MH ALM 562 12,138 0 18 Jul 2023
GEAR: Augmenting Language Models with Generalizable and Efficient Tool Resolution Yining Lu Haoping Yu Daniel Khashabi LLMAG 93 9 0 17 Jul 2023
MegaWika: Millions of reports and their sources across 50 diverse languages Samuel Barham Orion Weller Michelle Yuan Kenton W. Murray M. Yarmohammadi ... Alexander Martin Anqi Liu Aaron Steven White Jordan L. Boyd-Graber Benjamin Van Durme SyDa 80 5 0 13 Jul 2023
A Comprehensive Overview of Large Language Models Humza Naveed Asad Ullah Khan Shi Qiu Muhammad Saqib Saeed Anwar Muhammad Usman Naveed Akhtar Nick Barnes Ajmal Mian OffRL 264 630 0 12 Jul 2023
Unleashing the Emergent Cognitive Synergy in Large Language Models: A Task-Solving Agent through Multi-Persona Self-Collaboration Zhenhailong Wang Shaoguang Mao Wenshan Wu Tao Ge Furu Wei Heng Ji LLMAG LRM 123 155 0 11 Jul 2023
TRAQ: Trustworthy Retrieval Augmented Question Answering via Conformal Prediction Shuo Li Sangdon Park Insup Lee Osbert Bastani RALM HILM 171 11 0 07 Jul 2023
A Survey on Evaluation of Large Language Models Yu-Chu Chang Xu Wang Jindong Wang Yuanyi Wu Linyi Yang ... Yue Zhang Yi-Ju Chang Philip S. Yu Qian Yang Xingxu Xie ELM LM&MA ALM 237 1,773 0 06 Jul 2023
Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models Jinhao Duan Hao-Ran Cheng Shiqi Wang Alex Zavalny Chenan Wang Renjing Xu B. Kailkhura Kaidi Xu 133 51 0 03 Jul 2023
InstructEval: Systematic Evaluation of Instruction Selection Methods Anirudh Ajith Chris Pan Mengzhou Xia Ameet Deshpande Karthik Narasimhan ELM 92 16 0 01 Jul 2023
Meta-training with Demonstration Retrieval for Efficient Few-shot Learning Aaron Mueller Kanika Narang Lambert Mathias Qifan Wang Hamed Firooz RALM 83 3 0 30 Jun 2023
Stay on topic with Classifier-Free Guidance Guillaume Sanchez Honglu Fan Alexander Spangher Elad Levi Pawan Sasanka Ammanamanchi Stella Biderman 3DV 107 55 0 30 Jun 2023
Learning to Rank in Generative Retrieval Yongqing Li Nan Yang Liang Wang Furu Wei Wenjie Li RALM 76 41 0 27 Jun 2023
SciMRC: Multi-perspective Scientific Machine Reading Comprehension Xiao Zhang Heqi Zheng Yuxiang Nie Heyan Huang Xian-Ling Mao 78 1 0 25 Jun 2023
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models Neel Jain Khalid Saifullah Yuxin Wen John Kirchenbauer Manli Shu Aniruddha Saha Micah Goldblum Jonas Geiping Tom Goldstein ALM ELM 102 23 0 23 Jun 2023
ToolQA: A Dataset for LLM Question Answering with External Tools Yuchen Zhuang Yue Yu Kuan-Chieh Wang Haotian Sun Chao Zhang ELM LLMAG 101 252 0 23 Jun 2023
On the Robustness of Generative Retrieval Models: An Out-of-Distribution Perspective Yuansan Liu Ruqing Zhang Jiafeng Guo Wei Chen Xueqi Cheng 83 11 0 22 Jun 2023
GLIMMER: generalized late-interaction memory reranker Michiel de Jong Yury Zemlyanskiy Nicholas FitzGerald Sumit Sanghai William W. Cohen Joshua Ainslie RALM 95 5 0 17 Jun 2023
Conformal Language Modeling Victor Quach Adam Fisch Tal Schuster Adam Yala J. Sohn Tommi Jaakkola Regina Barzilay 253 67 0 16 Jun 2023
Pushing the Limits of ChatGPT on NLP Tasks Xiaofei Sun Linfeng Dong Xiaoya Li Zhen Wan Shuhe Wang ... Jiwei Li Fei Cheng Lingjuan Lyu Leilei Gan Guoyin Wang AI4MH LRM 117 32 0 16 Jun 2023
Encyclopedic VQA: Visual questions about detailed properties of fine-grained categories Thomas Mensink J. Uijlings Lluis Castrejon A. Goel Felipe Cadar Howard Zhou Fei Sha A. Araújo V. Ferrari 90 44 0 15 Jun 2023
When to Use Efficient Self Attention? Profiling Text, Speech and Image Transformer Variants Anuj Diwan Eunsol Choi David Harwath 81 0 0 14 Jun 2023
Multi-Source Test-Time Adaptation as Dueling Bandits for Extractive Question Answering Hai Ye Qizhe Xie Hwee Tou Ng 90 8 0 11 Jun 2023
Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations Lifan Yuan Yangyi Chen Ganqu Cui Hongcheng Gao Fangyuan Zou Xingyi Cheng Heng Ji Zhiyuan Liu Maosong Sun 148 84 0 07 Jun 2023
When to Read Documents or QA History: On Unified and Selective Open-domain QA Kyungjae Lee Sanghyun Han Seung-won Hwang Moontae Lee RALM 74 4 0 07 Jun 2023
Gotta: Generative Few-shot Question Answering by Prompt-based Cloze Data Augmentation Xiusi Chen Yu Zhang Jinliang Deng Jyun-Yu Jiang Wei Wang 79 12 0 07 Jun 2023
Inference-Time Intervention: Eliciting Truthful Answers from a Language Model Kenneth Li Oam Patel Fernanda Viégas Hanspeter Pfister Martin Wattenberg KELM HILM 195 584 0 06 Jun 2023
Unsupervised Dense Retrieval with Relevance-Aware Contrastive Pre-Training Yibin Lei Liang Ding Yu Cao Changtong Zan Andrew Yates Dacheng Tao SSL 66 22 0 05 Jun 2023
Benchmarking Large Language Models on CMExam -- A Comprehensive Chinese Medical Exam Dataset Junling Liu Peilin Zhou Yining Hua Dading Chong Zhongyu Tian ... Helin Wang Chenyu You Zhenhua Guo Lei Zhu Michael Lingzhi Li LM&MA ELM 113 80 0 05 Jun 2023
Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models Zhen Lin Shubhendu Trivedi Jimeng Sun HILM 214 157 0 30 May 2023