v1v2 (latest)

Dense X Retrieval: What Retrieval Granularity Should We Use?

11 December 2023

Tong Chen

Hongwei Wang

Sihao Chen

Wenhao Yu

Kaixin Ma

Xinran Zhao

Hongming Zhang

Dong Yu

ArXiv (abs)PDF HTML

Papers citing "Dense X Retrieval: What Retrieval Granularity Should We Use?"

38 / 38 papers shown

Title
Cognitive Kernel: An Open-source Agent System towards Generalist Autopilots Han Zhang Xiaoman Pan Hongwei Wang Kaixin Ma Wenhao Yu Dong Yu LLMAG 136 4 0 03 Jan 2025
HART: Efficient Visual Generation with Hybrid Autoregressive Transformer Haotian Tang Yecheng Wu Shang Yang Enze Xie Junsong Chen Junyu Chen Zhuoyang Zhang Han Cai Yaojie Lu Song Han 207 48 0 14 Oct 2024
Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting Zilong Wang Zifeng Wang Long Le Huaixiu Steven Zheng Swaroop Mishra ... Anush Mattapalli Ankur Taly Jingbo Shang Chen-Yu Lee Tomas Pfister RALM 128 46 0 11 Jul 2024
HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models Bernal Jiménez Gutiérrez Yiheng Shu Yu Gu Michihiro Yasunaga Yu-Chuan Su RALM CLL 126 47 0 23 May 2024
MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory Ali Modarressi Abdullatif Köksal Ayyoob Imani Mohsen Fayyaz Hinrich Schütze KELM 186 11 0 17 Apr 2024
RAPTOR: Recursive Abstractive Processing for Tree-Organized Retrieval Parth Sarthi Salman Abdullah Aditi Tuli Shubh Khanna Anna Goldie Christopher D. Manning RALM 96 148 0 31 Jan 2024
Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic Representations Sihao Chen Hongming Zhang Tong Chen Ben Zhou Wenhao Yu Dian Yu Baolin Peng Hongwei Wang Dan Roth Dong Yu SSL 90 14 0 07 Nov 2023
RECOMP: Improving Retrieval-Augmented LMs with Compression and Selective Augmentation Fangyuan Xu Weijia Shi Eunsol Choi RALM 97 165 0 06 Oct 2023
FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation Sewon Min Kalpesh Krishna Xinxi Lyu M. Lewis Wen-tau Yih Pang Wei Koh Mohit Iyyer Luke Zettlemoyer Hannaneh Hajishirzi HILM ALM 146 703 0 23 May 2023
PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and Entailment Recognition Sihao Chen S. Buthpitiya Alex Fabrikant Dan Roth Tal Schuster 53 25 0 21 Dec 2022
Scaling Instruction-Finetuned Language Models Hyung Won Chung Le Hou Shayne Longpre Barret Zoph Yi Tay ... Jacob Devlin Adam Roberts Denny Zhou Quoc V. Le Jason W. Wei ReLM LRM 234 3,158 0 20 Oct 2022
Generate rather than Retrieve: Large Language Models are Strong Context Generators Wenhao Yu Dan Iter Shuohang Wang Yichong Xu Mingxuan Ju Soumya Sanyal Chenguang Zhu Michael Zeng Meng Jiang RALM AIMat 342 336 0 21 Sep 2022
UnifiedQA-v2: Stronger Generalization via Broader Cross-Format Training Daniel Khashabi Yeganeh Kordi Hannaneh Hajishirzi 91 67 0 23 Feb 2022
Unsupervised Dense Information Retrieval with Contrastive Learning Gautier Izacard Mathilde Caron Lucas Hosseini Sebastian Riedel Piotr Bojanowski Armand Joulin Edouard Grave RALM 228 923 0 16 Dec 2021
Large Dual Encoders Are Generalizable Retrievers Jianmo Ni Chen Qu Jing Lu Zhuyun Dai Gustavo Hernández Ábrego ... Vincent Zhao Yi Luan Keith B. Hall Ming-Wei Chang Yinfei Yang DML 170 463 0 15 Dec 2021
GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval Kexin Wang Nandan Thakur Nils Reimers Iryna Gurevych VLM 150 157 0 14 Dec 2021
ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction Keshav Santhanam Omar Khattab Jon Saad-Falcon Christopher Potts Matei A. Zaharia 110 417 0 02 Dec 2021
Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a Sparse One? Xilun Chen Kushal Lakhotia Barlas Oğuz Anchit Gupta Patrick Lewis Stanislav Peshterliev Yashar Mehdad Sonal Gupta Wen-tau Yih 115 69 0 13 Oct 2021
Simple Entity-Centric Questions Challenge Dense Retrievers Christopher Sciavolino Zexuan Zhong Jinhyuk Lee Danqi Chen RALM 82 167 0 17 Sep 2021
Phrase Retrieval Learns Passage Retrieval, Too Jinhyuk Lee Alexander Wettig Danqi Chen RALM DML 75 48 0 16 Sep 2021
Domain-matched Pre-training Tasks for Dense Retrieval Barlas Oğuz Kushal Lakhotia Anchit Gupta Patrick Lewis Vladimir Karpukhin ... Xilun Chen Sebastian Riedel Wen-tau Yih Sonal Gupta Yashar Mehdad RALM 73 67 0 28 Jul 2021
SimCSE: Simple Contrastive Learning of Sentence Embeddings Tianyu Gao Xingcheng Yao Danqi Chen AILaw SSL 280 3,432 0 18 Apr 2021
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models Nandan Thakur Nils Reimers Andreas Rucklé Abhishek Srivastava Iryna Gurevych VLM 425 1,057 0 17 Apr 2021
Efficiently Teaching an Effective Dense Retriever with Balanced Topic Aware Sampling Sebastian Hofstatter Sheng-Chieh Lin Jheng-Hong Yang Jimmy J. Lin Allan Hanbury VLM 93 404 0 14 Apr 2021
Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering Gautier Izacard Edouard Grave RALM 147 1,184 0 02 Jul 2020
Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval Lee Xiong Chenyan Xiong Ye Li Kwok-Fung Tang Jialin Liu Paul N. Bennett Junaid Ahmed Arnold Overwijk 141 1,236 0 01 Jul 2020
Sparse, Dense, and Attentional Representations for Text Retrieval Y. Luan Jacob Eisenstein Kristina Toutanova M. Collins 71 409 0 01 May 2020
ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT Omar Khattab Matei A. Zaharia 138 1,380 0 27 Apr 2020
Pre-training Tasks for Embedding-based Large-scale Retrieval Wei-Cheng Chang Felix X. Yu Yin-Wen Chang Yiming Yang Sanjiv Kumar RALM 82 306 0 10 Feb 2020
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 503 20,376 0 23 Oct 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 1.3K 12,332 0 27 Aug 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 700 24,572 0 26 Jul 2019
Multilingual Universal Sentence Encoder for Semantic Retrieval Yinfei Yang Daniel Cer Amin Ahmad Mandy Guo Jax Law ... Steve Yuan Chris Tar Yun-hsuan Sung B. Strope R. Kurzweil 3DV 88 481 0 09 Jul 2019
Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index Minjoon Seo Jinhyuk Lee Tom Kwiatkowski Ankur P. Parikh Ali Farhadi Hannaneh Hajishirzi RALM 77 157 0 13 Jun 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 365 5,872 0 21 Apr 2019
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension Mandar Joshi Eunsol Choi Daniel S. Weld Luke Zettlemoyer RALM 237 2,692 0 09 May 2017
MS MARCO: A Human Generated MAchine Reading COmprehension Dataset Payal Bajaj Daniel Fernando Campos Nick Craswell Li Deng Jianfeng Gao ... Mir Rosenberg Xia Song Alina Stoica Saurabh Tiwary Tong Wang RALM 184 2,748 0 28 Nov 2016
SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar Jian Zhang Konstantin Lopyrev Percy Liang RALM 316 8,177 0 16 Jun 2016