Text Embeddings by Weakly-Supervised Contrastive Pre-training

7 December 2022

Liang Wang

Papers citing "Text Embeddings by Weakly-Supervised Contrastive Pre-training"

50 / 104 papers shown

Title
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models Xiangyang Li Kuicai Dong Yi Quan Lee Wei Xia Yichun Yin Xinyi Dai Yasheng Wang Ruiming Tang 65 15 0 03 Jul 2024
Preserving Multilingual Quality While Tuning Query Encoder on English Only Oleg V. Vasilyev Randy Sawaya John Bohannon 35 1 0 01 Jul 2024
ColPali: Efficient Document Retrieval with Vision Language Models Manuel Faysse Hugues Sibille Tony Wu Bilel Omrani Gautier Viaud C´eline Hudelot Pierre Colombo VLM 70 21 0 27 Jun 2024
MATE: Meet At The Embedding -- Connecting Images with Long Texts Young Kyun Jang Junmo Kang Yong Jae Lee Donghyun Kim VLM 44 5 0 26 Jun 2024
An Investigation of Prompt Variations for Zero-shot LLM-based Rankers Shuoqi Sun Shengyao Zhuang Shuai Wang Guido Zuccon 42 5 0 20 Jun 2024
Retrieval Augmented Fact Verification by Synthesizing Contrastive Arguments Zhenrui Yue Huimin Zeng Lanyu Shang Yifan Liu Yang Zhang Dong Wang RALM 43 2 0 14 Jun 2024
$S^3$ -- Semantic Signal Separation Márton Kardos Jan Kostkan Arnault-Quentin Vermillet Kristoffer Laigaard Nielbo Kenneth C. Enevoldsen Roberta Rocca 39 0 0 13 Jun 2024
Chain of Agents: Large Language Models Collaborating on Long-Context Tasks Yusen Zhang Ruoxi Sun Yanfei Chen Tomas Pfister Rui Zhang Sercan Ö. Arik RALM AI4CE LLMAG 54 30 0 04 Jun 2024
The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding Kenneth C. Enevoldsen Márton Kardos Niklas Muennighoff Kristoffer Laigaard Nielbo 42 9 0 04 Jun 2024
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models Yutao Zhu Zhaoheng Huang Zhicheng Dou Ji-Rong Wen RALM 56 5 0 30 May 2024
Unleashing the Potential of Text-attributed Graphs: Automatic Relation Decomposition via Large Language Models Hyunjin Seo Taewon Kim J. Yang Eunho Yang 47 0 0 28 May 2024
Transport of Algebraic Structure to Latent Embeddings Samuel Pfrommer Brendon G. Anderson Somayeh Sojoudi 37 0 0 27 May 2024
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models Chankyu Lee Rajarshi Roy Mengyao Xu Jonathan Raiman M. Shoeybi Bryan Catanzaro Ming-Yu Liu RALM 59 145 0 27 May 2024
FlashRAG: A Modular Toolkit for Efficient Retrieval-Augmented Generation Research Jiajie Jin Yutao Zhu Xinyu Yang Chenghao Zhang Zhicheng Dou Chenghao Zhang Tong Zhao Zhao Yang Zhicheng Dou Ji-Rong Wen VLM 85 49 0 22 May 2024
BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers Ran Xu Wenqi Shi Yue Yu Yuchen Zhuang Yanqiao Zhu M. D. Wang Joyce C. Ho Chao Zhang Carl Yang LM&MA 40 19 0 29 Apr 2024
From Matching to Generation: A Survey on Generative Information Retrieval Xiaoxi Li Jiajie Jin Yujia Zhou Yuyao Zhang Peitian Zhang Yutao Zhu Zhicheng Dou 3DV 84 46 0 23 Apr 2024
Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking Tianyu Zhu M. Jung Jesse Clark 91 1 0 12 Apr 2024
Event-enhanced Retrieval in Real-time Search Yanan Zhang Xiaoling Bai Tianhua Zhou 37 1 0 09 Apr 2024
Gecko: Versatile Text Embeddings Distilled from Large Language Models Jinhyuk Lee Zhuyun Dai Xiaoqi Ren Blair Chen Daniel Cer ... Aditya Kusupati Prateek Jain Siddhartha Reddy Jonnalagadda Ming-Wei Chang Iftekhar Naim RALM VLM SyDa 48 41 0 29 Mar 2024
Mevaker: Conclusion Extraction and Allocation Resources for the Hebrew Language Vitaly Shalumov Harel Haskey Yuval Solaz 47 0 0 12 Mar 2024
CARTE: Pretraining and Transfer for Tabular Learning Myung Jun Kim Léo Grinsztajn Gaël Varoquaux LMTD 62 13 0 26 Feb 2024
IR2: Information Regularization for Information Retrieval Jianyou Wang Kaicheng Wang Xiaoyue Wang Weili Cao R. Paturi Leon Bergen 46 1 0 25 Feb 2024
BIDER: Bridging Knowledge Inconsistency for Efficient Retrieval-Augmented LLMs via Key Supporting Evidence Jiajie Jin Yutao Zhu Yujia Zhou Zhicheng Dou RALM 49 21 0 19 Feb 2024
FeB4RAG: Evaluating Federated Search in the Context of Retrieval Augmented Generation Shuai Wang Ekaterina Khramtsova Shengyao Zhuang Guido Zuccon 34 11 0 19 Feb 2024
Deep Learning-based Computational Job Market Analysis: A Survey on Skill Extraction and Classification from Job Postings Elena Senger Mike Zhang Rob van der Goot Barbara Plank 34 7 0 08 Feb 2024
Nomic Embed: Training a Reproducible Long Context Text Embedder Zach Nussbaum John X. Morris Brandon Duderstadt Andriy Mulyar 27 96 0 02 Feb 2024
ConFit: Improving Resume-Job Matching using Data Augmentation and Contrastive Learning Xiao Yu Jinzhong Zhang Zhou Yu 43 1 0 29 Jan 2024
UNSEE: Unsupervised Non-contrastive Sentence Embeddings Ömer Veysel Çagatan SSL 27 0 0 27 Jan 2024
In-context Learning with Retrieved Demonstrations for Language Models: A Survey an Luo Xin Xu Yue Liu Panupong Pasupat Mehran Kazemi RALM 34 55 0 21 Jan 2024
Knowledge Fusion of Large Language Models Fanqi Wan Xinting Huang Deng Cai Xiaojun Quan Wei Bi Shuming Shi MoMe 40 63 0 19 Jan 2024
Learning High-Quality and General-Purpose Phrase Representations Lihu Chen Gaël Varoquaux Fabian M. Suchanek 40 3 0 18 Jan 2024
Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning Yingqian Min Kun Zhou Dawei Gao Wayne Xin Zhao He Hu Yaliang Li 26 1 0 07 Jan 2024
RETSim: Resilient and Efficient Text Similarity Marina Zhang Owen Vallis Aysegul Bumin Tanay Vakharia Elie Bursztein 36 1 0 28 Nov 2023
A Setwise Approach for Effective and Highly Efficient Zero-shot Ranking with Large Language Models Shengyao Zhuang Honglei Zhuang Bevan Koopman Guido Zuccon 38 22 0 14 Oct 2023
Reformulating Domain Adaptation of Large Language Models as Adapt-Retrieve-Revise Zhen Wan Yating Zhang Yexiang Wang Fei Cheng Sadao Kurohashi CLL AILaw 34 10 0 05 Oct 2023
Interpretable Long-Form Legal Question Answering with Retrieval-Augmented Large Language Models Antoine Louis Gijs van Dijck Gerasimos Spanakis ELM AILaw 30 35 0 29 Sep 2023
ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation Jianghao Lin Rongjie Shan Chenxu Zhu Kounianhua Du Bo Chen Shigang Quan Ruiming Tang Yong Yu Weinan Zhang LRM 40 82 0 22 Aug 2023
RaLLe: A Framework for Developing and Evaluating Retrieval-Augmented Large Language Models Yasuto Hoshi Daisuke Miyashita Youyang Ng Kento Tatsuno Yasuhiro Morioka Osamu Torii J. Deguchi LRM 32 12 0 21 Aug 2023
SimplyRetrieve: A Private and Lightweight Retrieval-Centric Generative AI Tool Youyang Ng Daisuke Miyashita Yasuto Hoshi Yasuhiro Morioka Osamu Torii Tomoya Kodama J. Deguchi RALM 15 9 0 08 Aug 2023
Towards General Text Embeddings with Multi-stage Contrastive Learning Zehan Li Xin Zhang Yanzhao Zhang Dingkun Long Pengjun Xie Meishan Zhang 59 351 0 07 Aug 2023
Large Language Models as Batteries-Included Zero-Shot ESCO Skills Matchers Benjamin Clavié Guillaume Soulié 26 11 0 07 Jul 2023
Description-Based Text Similarity Shauli Ravfogel Valentina Pyatkin Amir D. N. Cohen Avshalom Manevich Yoav Goldberg 28 5 0 21 May 2023
Curating corpora with classifiers: A case study of clean energy sentiment online M. V. Arnold P. Dodds C. Danforth 27 0 0 04 May 2023
The MiniPile Challenge for Data-Efficient Language Models Jean Kaddour MoE ALM 24 40 0 17 Apr 2023
One Embedder, Any Task: Instruction-Finetuned Text Embeddings Hongjin Su Weijia Shi Jungo Kasai Yizhong Wang Yushi Hu Mari Ostendorf Wen-tau Yih Noah A. Smith Luke Zettlemoyer Tao Yu 27 282 0 19 Dec 2022
SciRepEval: A Multi-Format Benchmark for Scientific Document Representations Amanpreet Singh Mike DÁrcy Arman Cohan Doug Downey Sergey Feldman 22 82 0 23 Nov 2022
Text and Code Embeddings by Contrastive Pre-Training Arvind Neelakantan Tao Xu Raul Puri Alec Radford Jesse Michael Han ... Tabarak Khan Toki Sherbakov Joanne Jang Peter Welinder Lilian Weng SSL AI4TS 232 422 0 24 Jan 2022
RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking Ruiyang Ren Yingqi Qu Jing Liu Wayne Xin Zhao Qiaoqiao She Hua Wu Haifeng Wang Ji-Rong Wen 141 249 0 14 Oct 2021
Salient Phrase Aware Dense Retrieval: Can a Dense Retriever Imitate a Sparse One? Xilun Chen Kushal Lakhotia Barlas Oğuz Anchit Gupta Patrick Lewis Stanislav Peshterliev Yashar Mehdad Sonal Gupta Wen-tau Yih 56 68 0 13 Oct 2021
Deduplicating Training Data Makes Language Models Better Katherine Lee Daphne Ippolito A. Nystrom Chiyuan Zhang Douglas Eck Chris Callison-Burch Nicholas Carlini SyDa 242 593 0 14 Jul 2021