RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models

4 May 2023

Zheng Liu

Papers citing "RetroMAE-2: Duplex Masked Auto-Encoder For Pre-Training Retrieval-Oriented Language Models"

22 / 22 papers shown

Title
ChemTEB: Chemical Text Embedding Benchmark, an Overview of Embedding Models Performance & Efficiency on a Specific Domain Ali Shiraee Kasmaee Mohammad Khodadad Mohammad Arshi Saloot Nick Sherck Stephen Dokas H. Mahyar Soheila Samiee ELM 595 2 0 30 Nov 2024
UniHGKR: Unified Instruction-aware Heterogeneous Knowledge Retrievers Dehai Min Zhiyang Xu Guilin Qi Lifu Huang Chenyu You RALM 131 2 0 26 Oct 2024
SimANS: Simple Ambiguous Negatives Sampling for Dense Text Retrieval Kun Zhou Yeyun Gong Xiao Liu Wayne Xin Zhao Yelong Shen ... Jing Lu Rangan Majumder Ji-Rong Wen Nan Duan Weizhu Chen 70 36 0 21 Oct 2022
RetroMAE: Pre-Training Retrieval-oriented Language Models Via Masked Auto-Encoder Shitao Xiao Zheng Liu Yingxia Shao Bo Zhao RALM 276 125 0 24 May 2022
ERNIE-Search: Bridging Cross-Encoder with Dual-Encoder via Self On-the-fly Distillation for Dense Passage Retrieval Yuxiang Lu Yiding Liu Jiaxiang Liu Yunsheng Shi Zhengjie Huang ... Hao Tian Hua Wu Shuaiqiang Wang Dawei Yin Haifeng Wang 163 60 0 18 May 2022
Uni-Retriever: Towards Learning The Unified Embedding Based Retriever in Bing Sponsored Search Jianjin Zhang Zheng Liu Weihao Han Shitao Xiao Rui Zheng ... Hanqing Zhu Premkumar Srinivasan Denvy Deng Qi Zhang Xing Xie 78 30 0 13 Feb 2022
Large Dual Encoders Are Generalizable Retrievers Jianmo Ni Chen Qu Jing Lu Zhuyun Dai Gustavo Hernández Ábrego ... Vincent Zhao Yi Luan Keith B. Hall Ming-Wei Chang Yinfei Yang DML 167 461 0 15 Dec 2021
GPL: Generative Pseudo Labeling for Unsupervised Domain Adaptation of Dense Retrieval Kexin Wang Nandan Thakur Nils Reimers Iryna Gurevych VLM 141 157 0 14 Dec 2021
ColBERTv2: Effective and Efficient Retrieval via Lightweight Late Interaction Keshav Santhanam Omar Khattab Jon Saad-Falcon Christopher Potts Matei A. Zaharia 105 415 0 02 Dec 2021
RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking Ruiyang Ren Yingqi Qu Jing Liu Wayne Xin Zhao Qiaoqiao She Hua Wu Haifeng Wang Ji-Rong Wen 272 255 0 14 Oct 2021
Adversarial Retriever-Ranker for dense text retrieval Hang Zhang Yeyun Gong Yelong Shen Jiancheng Lv Nan Duan Weizhu Chen VLM RALM 103 118 0 07 Oct 2021
SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval Thibault Formal Carlos Lassance Benjamin Piwowarski Stéphane Clinchant 271 189 0 21 Sep 2021
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models Nandan Thakur Nils Reimers Andreas Rucklé Abhishek Srivastava Iryna Gurevych VLM 425 1,055 0 17 Apr 2021
TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for Unsupervised Sentence Embedding Learning Kexin Wang Nils Reimers Iryna Gurevych 137 187 0 14 Apr 2021
Efficiently Teaching an Effective Dense Retriever with Balanced Topic Aware Sampling Sebastian Hofstatter Sheng-Chieh Lin Jheng-Hong Yang Jimmy J. Lin Allan Hanbury VLM 90 402 0 14 Apr 2021
Approximate Nearest Neighbor Negative Contrastive Learning for Dense Text Retrieval Lee Xiong Chenyan Xiong Ye Li Kwok-Fung Tang Jialin Liu Paul N. Bennett Junaid Ahmed Arnold Overwijk 141 1,234 0 01 Jul 2020
Sparse, Dense, and Attentional Representations for Text Retrieval Y. Luan Jacob Eisenstein Kristina Toutanova M. Collins 69 409 0 01 May 2020
Overview of the TREC 2019 deep learning track Nick Craswell Bhaskar Mitra Emine Yilmaz Daniel Fernando Campos E. Voorhees 237 495 0 17 Mar 2020
REALM: Retrieval-Augmented Language Model Pre-Training Kelvin Guu Kenton Lee Zora Tung Panupong Pasupat Ming-Wei Chang RALM 145 2,118 0 10 Feb 2020
Pre-training Tasks for Embedding-based Large-scale Retrieval Wei-Cheng Chang Felix X. Yu Yin-Wen Chang Yiming Yang Sanjiv Kumar RALM 76 306 0 10 Feb 2020
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 686 24,557 0 26 Jul 2019
MS MARCO: A Human Generated MAchine Reading COmprehension Dataset Payal Bajaj Daniel Fernando Campos Nick Craswell Li Deng Jianfeng Gao ... Mir Rosenberg Xia Song Alina Stoica Saurabh Tiwary Tong Wang RALM 156 2,745 0 28 Nov 2016