ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction

2 December 2021

Papers citing "ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction"

34 / 34 papers shown

Title
Fixing Data That Hurts Performance: Cascading LLMs to Relabel Hard Negatives for Robust Information Retrieval Nandan Thakur Crystina Zhang Xueguang Ma Jimmy Lin 82 0 0 22 May 2025
A Survey of Model Architectures in Information Retrieval Zhichao Xu Fengran Mo Zhiqi Huang Crystina Zhang Puxuan Yu Bei Wang Jimmy J. Lin Vivek Srikumar KELM 3DV 103 2 0 21 Feb 2025
Rankify: A Comprehensive Python Toolkit for Retrieval, Re-Ranking, and Retrieval-Augmented Generation Abdelrahman Abdallah Bhawna Piryani Jamshid Mozafari Mohammed Ali Adam Jatowt 186 1 0 21 Feb 2025
Savaal: Scalable Concept-Driven Question Generation to Enhance Human Learning Kimia Noorbakhsh Joseph Chandler Pantea Karimi M. Alizadeh H. Balakrishnan LRM 77 1 0 18 Feb 2025
WARP: An Efficient Engine for Multi-Vector Retrieval Jan Luca Scheerer Matei A. Zaharia Christopher Potts Gustavo Alonso Omar Khattab 69 0 0 29 Jan 2025
Boosting LLM-based Relevance Modeling with Distribution-Aware Robust Learning Hong Liu Saisai Gong Yixin Ji Kaixin Wu Jia Xu Jinjie Gu 94 1 0 17 Dec 2024
A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection Gabriel Chua Shing Yee Chan Shaun Khoo 141 1 0 20 Nov 2024
Data Extraction Attacks in Retrieval-Augmented Generation via Backdoors Yuefeng Peng Junda Wang Hong-ye Yu Amir Houmansadr SILM 79 3 0 03 Nov 2024
MCQG-SRefine: Multiple Choice Question Generation and Evaluation with Iterative Self-Critique, Correction, and Comparison Feedback Zonghai Yao Aditya Parashar Huixue Zhou Won Seok Jang Feiyun Ouyang Zhichao Yang Hong-ye Yu ELM 84 2 0 17 Oct 2024
Attention in Large Language Models Yields Efficient Zero-Shot Re-Rankers Shijie Chen Bernal Jiménez Gutiérrez Yu Su 60 4 0 03 Oct 2024
HippoRAG: Neurobiologically Inspired Long-Term Memory for Large Language Models Bernal Jiménez Gutiérrez Yiheng Shu Yu Gu Michihiro Yasunaga Yu-Chuan Su RALM CLL 84 39 0 23 May 2024
IR2: Information Regularization for Information Retrieval Jianyou Wang Kaicheng Wang Xiaoyue Wang Weili Cao R. Paturi Leon Bergen 86 1 0 25 Feb 2024
Test-time Backdoor Mitigation for Black-Box Large Language Models with Defensive Demonstrations Wenjie Mo Lyne Tchapmi Qin Liu Jiong Wang Jun Yan Chaowei Xiao Muhao Chen Muhao Chen AAML 99 19 0 16 Nov 2023
Improving language models by retrieving from trillions of tokens Sebastian Borgeaud A. Mensch Jordan Hoffmann Trevor Cai Eliza Rutherford ... Simon Osindero Karen Simonyan Jack W. Rae Erich Elsen Laurent Sifre KELM RALM 160 1,069 0 08 Dec 2021
RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking Ruiyang Ren Yingqi Qu Jing Liu Wayne Xin Zhao Qiaoqiao She Hua Wu Haifeng Wang Ji-Rong Wen 199 254 0 14 Oct 2021
Phrase Retrieval Learns Passage Retrieval, Too Jinhyuk Lee Alexander Wettig Danqi Chen RALM DML 48 46 0 16 Sep 2021
Domain-matched Pre-training Tasks for Dense Retrieval Barlas Oğuz Kushal Lakhotia Anchit Gupta Patrick Lewis Vladimir Karpukhin ... Xilun Chen Sebastian Riedel Wen-tau Yih Sonal Gupta Yashar Mehdad RALM 35 66 0 28 Jul 2021
GooAQ: Open Question Answering with Diverse Answer Types Daniel Khashabi Amos Ng Tushar Khot Ashish Sabharwal Hannaneh Hajishirzi Chris Callison-Burch 39 52 0 18 Apr 2021
Baleen: Robust Multi-Hop Reasoning at Scale via Condensed Retrieval Omar Khattab Christopher Potts Matei A. Zaharia RALM LRM 46 55 0 02 Jan 2021
A Memory Efficient Baseline for Open Domain Question Answering Gautier Izacard Fabio Petroni Lucas Hosseini Nicola De Cao Sebastian Riedel Edouard Grave MQ 47 44 0 30 Dec 2020
CLIMATE-FEVER: A Dataset for Verification of Real-World Climate Claims Thomas Diggelmann Jordan L. Boyd-Graber Jannis Bulian Massimiliano Ciaramita Markus Leippold 70 200 0 01 Dec 2020
Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval Lee Xiong Chenyan Xiong Ye Li Kwok-Fung Tang Jialin Liu Paul N. Bennett Junaid Ahmed Arnold Overwijk 97 1,207 0 01 Jul 2020
Fact or Fiction: Verifying Scientific Claims David Wadden Shanchuan Lin Kyle Lo Lucy Lu Wang Madeleine van Zuylen Arman Cohan Hannaneh Hajishirzi HAI 84 440 0 30 Apr 2020
ColBERT: Efficient and Effective Passage Search via Contextualized Late Interaction over BERT Omar Khattab Matei A. Zaharia 97 1,337 0 27 Apr 2020
SPECTER: Document-level Representation Learning using Citation-informed Transformers Arman Cohan Sergey Feldman Iz Beltagy Doug Downey Daniel S. Weld AI4TS 65 547 0 15 Apr 2020
MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression of Pre-Trained Transformers Wenhui Wang Furu Wei Li Dong Hangbo Bao Nan Yang Ming Zhou VLM 91 1,230 0 25 Feb 2020
REALM: Retrieval-Augmented Language Model Pre-Training Kelvin Guu Kenton Lee Zora Tung Panupong Pasupat Ming-Wei Chang RALM 93 2,050 0 10 Feb 2020
Poly-encoders: Transformer Architectures and Pre-training Strategies for Fast and Accurate Multi-sentence Scoring Samuel Humeau Kurt Shuster Marie-Anne Lachaux Jason Weston 96 283 0 22 Apr 2019
Passage Re-ranking with BERT Rodrigo Nogueira Kyunghyun Cho OOD 107 1,086 0 13 Jan 2019
FEVER: a large-scale dataset for Fact Extraction and VERification James Thorne Andreas Vlachos Christos Christodoulopoulos Arpit Mittal HILM 113 1,633 0 14 Mar 2018
AdaComp : Adaptive Residual Gradient Compression for Data-Parallel Distributed Training Chia-Yu Chen Jungwook Choi D. Brand A. Agrawal Wei Zhang K. Gopalakrishnan ODL 40 173 0 07 Dec 2017
TriviaQA: A Large Scale Distantly Supervised Challenge Dataset for Reading Comprehension Mandar Joshi Eunsol Choi Daniel S. Weld Luke Zettlemoyer RALM 173 2,610 0 09 May 2017
Billion-scale similarity search with GPUs Jeff Johnson Matthijs Douze Hervé Jégou 172 3,696 0 28 Feb 2017
SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar Jian Zhang Konstantin Lopyrev Percy Liang RALM 153 8,067 0 16 Jun 2016