PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them

13 February 2021

Patrick Lewis

Papers citing "PAQ: 65 Million Probably-Asked Questions and What You Can Do With Them"

50 / 159 papers shown

Title
HuixiangDou2: A Robustly Optimized GraphRAG Approach Huanjun Kong Zhefan Wang Chenyang Wang Zhe Ma Nanqing Dong 48 0 0 09 Mar 2025
ZOGRASCOPE: A New Benchmark for Property Graphs Francesco Cazzaro Justin Kleindienst Sofia Marquez A. Quattoni 54 0 0 07 Mar 2025
Granite Embedding Models Parul Awasthy Aashka Trivedi Yulong Li Mihaela A. Bornea David D. Cox ... Sukriti Sharma Avirup Sil Kate Soule Arafat Sultan Radu Florian RALM 62 1 0 27 Feb 2025
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation Mohammad Mahdi Abootorabi Amirhosein Zobeiri Mahdi Dehghani Mohammadali Mohammadkhani Bardia Mohammadi Omid Ghahroodi M. Baghshah Ehsaneddin Asgari RALM 105 4 0 12 Feb 2025
GeAR: Generation Augmented Retrieval Haoyu Liu Shaohan Huang Jianfeng Liu Yuefeng Zhan H. Sun Weiwei Deng Feng Sun Furu Wei Qi Zhang 38 1 0 06 Jan 2025
QuIM-RAG: Advancing Retrieval-Augmented Generation with Inverted Question Matching for Enhanced QA Performance Binita Saha Utsha Saha Muhammad Zubair Malik RALM 3DV 56 2 0 06 Jan 2025
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models Hieu Man Nghia Trung Ngo Viet Dac Lai Ryan Rossi Franck Dernoncourt T. Nguyen 160 0 0 01 Jan 2025
MST-R: Multi-Stage Tuning for Retrieval Systems and Metric Evaluation Yash Malviya Karan Dhingra Maneesh Singh 72 0 0 13 Dec 2024
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs Sheng-Chieh Lin Chankyu Lee M. Shoeybi Jimmy J. Lin Bryan Catanzaro Wei Ping 65 10 0 04 Nov 2024
Contextual Document Embeddings John X. Morris Alexander M. Rush 19 7 0 03 Oct 2024
CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation Ingo Ziegler Abdullatif Köksal Desmond Elliott Hinrich Schütze 43 5 0 03 Sep 2024
RoarGraph: A Projected Bipartite Graph for Efficient Cross-Modal Approximate Nearest Neighbor Search Meng Chen Kai Zhang Zhenying He Yinan Jing X. Sean Wang 27 8 0 16 Aug 2024
FastFiD: Improve Inference Efficiency of Open Domain Question Answering via Sentence Selection Yufei Huang Xu Han Maosong Sun 28 0 0 12 Aug 2024
Re-Invoke: Tool Invocation Rewriting for Zero-Shot Tool Retrieval Yanfei Chen Jinsung Yoon Devendra Singh Sachan Qingze Wang Vincent Cohen-Addad M. Bateni Chen-Yu Lee Tomas Pfister 34 5 0 03 Aug 2024
CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation Tong Chen Akari Asai Niloofar Mireshghallah Sewon Min James Grimmelmann Yejin Choi Hannaneh Hajishirzi Luke Zettlemoyer Pang Wei Koh 51 17 0 09 Jul 2024
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs Ziyan Jiang Xueguang Ma Wenhu Chen RALM 55 47 0 21 Jun 2024
SynDARin: Synthesising Datasets for Automated Reasoning in Low-Resource Languages G. Ghazaryan Erik Arakelyan Pasquale Minervini Isabelle Augenstein SyDa 19 0 0 20 Jun 2024
QOG:Question and Options Generation based on Language Model Jincheng Zhou 34 2 0 18 Jun 2024
MATTER: Memory-Augmented Transformer Using Heterogeneous Knowledge Sources Dongkyu Lee Chandana Satya Prakash Jack G. M. FitzGerald Jens Lehmann RALM 31 2 0 07 Jun 2024
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models Chankyu Lee Rajarshi Roy Mengyao Xu Jonathan Raiman M. Shoeybi Bryan Catanzaro Wei Ping RALM 54 139 0 27 May 2024
INDUS: Effective and Efficient Language Models for Scientific Applications Bishwaranjan Bhattacharjee Aashka Trivedi Masayasu Muraoka Muthukumaran Ramasubramanian Takuma Udagawa ... Peter W. J. Staar S. Vahidinia Ryan McGranaghan A. Mehrabian Tsendgar Lee AI4CE 23 5 0 17 May 2024
SuRe: Summarizing Retrievals using Answer Candidates for Open-domain QA of LLMs Jaehyung Kim Jaehyun Nam Sangwoo Mo Jongjin Park Sang-Woo Lee Minjoon Seo Jung-Woo Ha Jinwoo Shin AIFin RALM ELM 40 34 0 17 Apr 2024
Enhancing Question Answering for Enterprise Knowledge Bases using Large Language Models Feihu Jiang Chuan Qin Kaichun Yao Chuyu Fang Fuzhen Zhuang Hengshu Zhu Hui Xiong 32 4 0 10 Apr 2024
BLADE: Enhancing Black-box Large Language Models with Small Domain-Specific Models Haitao Li Qingyao Ai Jia Chen Qian Dong Zhijing Wu Yiqun Liu Chong Chen Qi Tian AILaw 54 13 0 27 Mar 2024
Robust and Scalable Model Editing for Large Language Models Yingfa Chen Zhengyan Zhang Xu Han Chaojun Xiao Zhiyuan Liu Chen Chen Kuai Li Tao Yang Maosong Sun KELM 34 2 0 26 Mar 2024
Fine Tuning vs. Retrieval Augmented Generation for Less Popular Knowledge Heydar Soudani Evangelos Kanoulas Faegheh Hasibi 26 28 0 03 Mar 2024
Tri-Modal Motion Retrieval by Learning a Joint Embedding Space Kangning Yin Shihao Zou Yuxuan Ge Zheng Tian 40 5 0 01 Mar 2024
Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation Nihal V. Nayak Yiyang Nan Avi Trost Stephen H. Bach SyDa 35 13 0 28 Feb 2024
ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models Chenyang Song Xu Han Zhengyan Zhang Shengding Hu Xiyu Shi ... Chen Chen Zhiyuan Liu Guanglin Li Tao Yang Maosong Sun 48 24 0 21 Feb 2024
Domain Adaptation of Multilingual Semantic Search -- Literature Review Anna Bringmann Anastasia Zhukova VLM 30 0 0 05 Feb 2024
Nomic Embed: Training a Reproducible Long Context Text Embedder Zach Nussbaum John X. Morris Brandon Duderstadt Andriy Mulyar 19 95 0 02 Feb 2024
Contrastive Learning and Mixture of Experts Enables Precise Vector Embeddings Logan Hallee Rohan Kapur Arjun Patel Jason P. Gleghorn Bohdan B. Khomtchouk MoE 17 3 0 28 Jan 2024
S2M: Converting Single-Turn to Multi-Turn Datasets for Conversational Question Answering Baokui Li Sen Zhang Wangshu Zhang Yicheng Chen Changlin Yang Sen Hu Teng Xu Siye Liu Jiwei Li 36 1 0 27 Dec 2023
A Self-enhancement Approach for Domain-specific Chatbot Training via Knowledge Mining and Digest Ruohong Zhang Luyu Gao Chen Zheng Zhen Fan Guokun Lai Zheng Zhang Fangzhou Ai Yiming Yang Hongxia Yang 43 2 0 17 Nov 2023
Bring Your Own KG: Self-Supervised Program Synthesis for Zero-Shot KGQA Dhruv Agarwal Rajarshi Das Sopan Khosla Rashmi Gangadharaiah OffRL 18 7 0 14 Nov 2023
Hallucination Augmented Recitations for Language Models Abdullatif Köksal Renat Aksitov Chung-Ching Chang HILM 37 5 0 13 Nov 2023
SEMQA: Semi-Extractive Multi-Source Question Answering Tal Schuster Á. Lelkes Haitian Sun Jai Gupta Jonathan Berant W. Cohen Donald Metzler 30 13 0 08 Nov 2023
1-PAGER: One Pass Answer Generation and Evidence Retrieval Palak Jain Livio Baldini Soares Tom Kwiatkowski RALM 20 6 0 25 Oct 2023
QASnowball: An Iterative Bootstrapping Framework for High-Quality Question-Answering Data Generation Kunlun Zhu Shihao Liang Xu Han Zhi Zheng Guoyang Zeng Zhiyuan Liu Maosong Sun 47 2 0 19 Sep 2023
Data Augmentation for Conversational AI Heydar Soudani Evangelos Kanoulas Faegheh Hasibi 32 3 0 09 Sep 2023
Answering Ambiguous Questions with a Database of Questions, Answers, and Revisions Haitian Sun William W. Cohen Ruslan Salakhutdinov 19 3 0 16 Aug 2023
On Monotonic Aggregation for Open-domain QA Sanghyun Han Yeonseok Jeong Seung-won Hwang Kyungjae Lee KELM 11 0 0 08 Aug 2023
Towards Consistency Filtering-Free Unsupervised Learning for Dense Retrieval Haoxiang Shi Sumio Fujita Tetsuya Sakai 11 0 0 05 Aug 2023
MegaWika: Millions of reports and their sources across 50 diverse languages Samuel Barham Orion Weller Michelle Yuan Kenton W. Murray M. Yarmohammadi ... Alexander Martin Anqi Liu Aaron Steven White Jordan L. Boyd-Graber Benjamin Van Durme SyDa 34 4 0 13 Jul 2023
MultiVENT: Multilingual Videos of Events with Aligned Natural Text Kate Sanders David Etter Reno Kriz Benjamin Van Durme VGen 39 7 0 06 Jul 2023
Meta-training with Demonstration Retrieval for Efficient Few-shot Learning Aaron Mueller Kanika Narang Lambert Mathias Qifan Wang Hamed Firooz RALM 11 3 0 30 Jun 2023
A Massive Scale Semantic Similarity Dataset of Historical English Emily Silcock Melissa Dell 39 5 0 30 Jun 2023
Resources and Evaluations for Multi-Distribution Dense Information Retrieval Soumya Chatterjee Omar Khattab Simran Arora 22 0 0 21 Jun 2023
The Effect of Masking Strategies on Knowledge Retention by Language Models Jonas Wallat Tianyi Zhang Avishek Anand KELM CLL 10 0 0 12 Jun 2023
Revealing the Blind Spot of Sentence Encoder Evaluation by HEROS Cheng-Han Chiang Yung-Sung Chuang James R. Glass Hung-yi Lee AI4TS 21 3 0 08 Jun 2023