SGPT: GPT Sentence Embeddings for Semantic Search

17 February 2022

Niklas Muennighoff

Papers citing "SGPT: GPT Sentence Embeddings for Semantic Search"

44 / 44 papers shown

Title
Memorization and Knowledge Injection in Gated LLMs Xu Pan Ely Hahami Zechen Zhang H. Sompolinsky KELM CLL RALM 104 1 0 30 Apr 2025
CSPLADE: Learned Sparse Retrieval with Causal Language Models Zhichao Xu Aosong Feng Yijun Tian Haibo Ding Lin Leee Cheong RALM 40 0 0 15 Apr 2025
DioR: Adaptive Cognitive Detection and Contextual Retrieval Optimization for Dynamic Retrieval-Augmented Generation Hanghui Guo Jia Zhu Shimin Di Weijie Shi Zhangze Chen Jiajie Xu 35 0 0 14 Apr 2025
Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling Hengran Zhang Keping Bi J. Guo Xiaojie Sun Shihao Liu Daiting Shi Dawei Yin Xueqi Cheng RALM 141 0 0 07 Apr 2025
A Survey on Knowledge-Oriented Retrieval-Augmented Generation Mingyue Cheng Yucong Luo Jie Ouyang Qiang Liu Huijie Liu ... Bohou Zhang Jiawei Cao Jie Ma Daoyu Wang Enhong Chen 3DV 70 3 0 11 Mar 2025
Kanana: Compute-efficient Bilingual Language Models Kanana LLM Team Yunju Bak Hojin Lee Minho Ryu Jiyeon Ham ... Daniel Lee Minchul Lee M. Lee Shinbok Lee Gaeun Seo 90 1 0 26 Feb 2025
A Survey of Model Architectures in Information Retrieval Zhichao Xu Fengran Mo Zhiqi Huang Crystina Zhang Puxuan Yu Bei Wang Jimmy J. Lin Vivek Srikumar KELM 3DV 58 2 0 21 Feb 2025
Is ChatGPT Good at Search? Investigating Large Language Models as Re-Ranking Agents Weiwei Sun Lingyong Yan Xinyu Ma Shuaiqiang Wang Pengjie Ren Zhumin Chen Dawei Yin Z. Ren RALM ALM ELM LRM LM&MA 76 285 0 31 Dec 2024
Large Language Model Can Be a Foundation for Hidden Rationale-Based Retrieval Luo Ji Feixiang Guo Teng Chen Qingqing Gu Xiaoyu Wang ... Peng Yu Yue Zhao Hongyang Lei Zhonglin Jiang Yong Chen RALM LRM 99 0 0 21 Dec 2024
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents S. Yu C. Tang Bokai Xu Junbo Cui Junhao Ran ... Zhenghao Liu Shuo Wang Xu Han Zhiyuan Liu Maosong Sun VLM 39 23 0 14 Oct 2024
STAGE: Simplified Text-Attributed Graph Embeddings Using Pre-trained LLMs Aaron Zolnai-Lucas Jack Boylan Chris Hokamp Parsa Ghaffari 42 1 0 10 Jul 2024
CancerLLM: A Large Language Model in Cancer Domain Mingchen Li Jiatan Huang Jeremy Yeung A. Blaes Steven Johnson Hongfang Liu Hua Xu Rui Zhang ELM LM&MA 32 4 0 15 Jun 2024
The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding K. Enevoldsen Márton Kardos Niklas Muennighoff Kristoffer Laigaard Nielbo 42 9 0 04 Jun 2024
Explaining Text Similarity in Transformer Models Alexandros Vasileiou Oliver Eberle 43 7 0 10 May 2024
XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples Peiqin Lin André F. T. Martins Hinrich Schütze RALM 45 2 0 08 May 2024
BMRetriever: Tuning Large Language Models as Better Biomedical Text Retrievers Ran Xu Wenqi Shi Yue Yu Yuchen Zhuang Yanqiao Zhu M. D. Wang Joyce C. Ho Chao Zhang Carl Yang LM&MA 40 19 0 29 Apr 2024
Improving Demonstration Diversity by Human-Free Fusing for Text-to-SQL Dingzirui Wang Longxu Dou Xuanliang Zhang Qingfu Zhu Wanxiang Che 31 7 0 16 Feb 2024
Data-CUBE: Data Curriculum for Instruction-based Sentence Representation Learning Yingqian Min Kun Zhou Dawei Gao Wayne Xin Zhao He Hu Yaliang Li 26 1 0 07 Jan 2024
Xpert: Empowering Incident Management with Query Recommendations via Large Language Models Yuxuan Jiang Chaoyun Zhang Shilin He Zhihao Yang Ming-Jie Ma ... Yu Kang Yingnong Dang Saravan Rajmohan Qingwei Lin Dongmei Zhang 42 17 0 19 Dec 2023
MELA: Multilingual Evaluation of Linguistic Acceptability Ziyin Zhang Yikang Liu Wei Huang Junyu Mao Rui Wang Hai Hu 22 3 0 15 Nov 2023
Citation Recommendation on Scholarly Legal Articles Doğukan Arslan Saadet Sena Erdogan Gülşen Eryiğit AILaw 23 0 0 10 Nov 2023
Investigating semantic subspaces of Transformer sentence embeddings through linear structural probing Dmitry Nikolaev Sebastian Padó 46 5 0 18 Oct 2023
Scaling Sentence Embeddings with Large Language Models Ting Jiang Shaohan Huang Zhongzhi Luan Deqing Wang Fuzhen Zhuang LRM 42 40 0 31 Jul 2023
LEA: Improving Sentence Similarity Robustness to Typos Using Lexical Attention Bias Mario Almagro Emilio Almazán Diego Ortego David Jiménez 23 3 0 06 Jul 2023
MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal Image Generation Marco Bellagente Manuel Brack H. Teufel Felix Friedrich Bjorn Deiseroth ... Koen Oostermeijer Andres Felipe Cruz Salinas P. Schramowski Kristian Kersting Samuel Weinbach 36 15 0 24 May 2023
mPLM-Sim: Better Cross-Lingual Similarity and Transfer in Multilingual Pretrained Language Models Peiqin Lin Chengzhi Hu Zheyu Zhang André F. T. Martins Hinrich Schütze 27 1 0 23 May 2023
A Comprehensive Survey of Sentence Representations: From the BERT Epoch to the ChatGPT Era and Beyond Abhinav Ramesh Kashyap Thang-Tung Nguyen Viktor Schlegel Stefan Winkler See-Kiong Ng Soujanya Poria AI4TS 3DV SSL 34 6 0 22 May 2023
A Comprehensive Evaluation of Neural SPARQL Query Generation from Natural Language Questions Papa Abdou Karim Karou Diallo Samuel Reyd Amal Zouaq 11 6 0 16 Apr 2023
Rethinking the Role of Token Retrieval in Multi-Vector Retrieval Jinhyuk Lee Zhuyun Dai Sai Meher Karthik Duddu Tao Lei Iftekhar Naim Ming-Wei Chang Vincent Zhao 24 15 0 04 Apr 2023
The Battle of Information Representations: Comparing Sentiment and Semantic Features for Forecasting Market Trends A.S. Zaichenko A. Kazakov Elizaveta Kovtun S. Budennyy AIFin 19 1 0 24 Mar 2023
An Experimental Study on Pretraining Transformers from Scratch for IR Carlos Lassance Hervé Déjean S. Clinchant 28 11 0 25 Jan 2023
One Embedder, Any Task: Instruction-Finetuned Text Embeddings Hongjin Su Weijia Shi Jungo Kasai Yizhong Wang Yushi Hu Mari Ostendorf Wen-tau Yih Noah A. Smith Luke Zettlemoyer Tao Yu 27 279 0 19 Dec 2022
Task-aware Retrieval with Instructions Akari Asai Timo Schick Patrick Lewis Xilun Chen Gautier Izacard Sebastian Riedel Hannaneh Hajishirzi Wen-tau Yih 36 87 0 16 Nov 2022
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model BigScience Workshop : Teven Le Scao Angela Fan Christopher Akiki ... Zhongli Xie Zifan Ye M. Bras Younes Belkada Thomas Wolf VLM 116 2,309 0 09 Nov 2022
MTEB: Massive Text Embedding Benchmark Niklas Muennighoff Nouamane Tazi L. Magne Nils Reimers 28 370 0 13 Oct 2022
Neural Embeddings for Text Oleg V. Vasilyev John Bohannon MILM 13 2 0 17 Aug 2022
An Efficiency Study for SPLADE Models Carlos Lassance S. Clinchant 32 70 0 08 Jul 2022
Text and Code Embeddings by Contrastive Pre-Training Arvind Neelakantan Tao Xu Raul Puri Alec Radford Jesse Michael Han ... Tabarak Khan Toki Sherbakov Joanne Jang Peter Welinder Lilian Weng SSL AI4TS 218 422 0 24 Jan 2022
SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval Thibault Formal Carlos Lassance Benjamin Piwowarski S. Clinchant 202 186 0 21 Sep 2021
BEIR: A Heterogenous Benchmark for Zero-shot Evaluation of Information Retrieval Models Nandan Thakur Nils Reimers Andreas Rucklé Abhishek Srivastava Iryna Gurevych VLM 231 966 0 17 Apr 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 253 1,989 0 31 Dec 2020
Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks Nandan Thakur Nils Reimers Johannes Daxenberger Iryna Gurevych 205 241 0 16 Oct 2020
RocketQA: An Optimized Training Approach to Dense Passage Retrieval for Open-Domain Question Answering Yingqi Qu Yuchen Ding Jing Liu Kai Liu Ruiyang Ren Xin Zhao Daxiang Dong Hua-Hong Wu Haifeng Wang RALM OffRL 214 593 0 16 Oct 2020
A Survey on Contextual Embeddings Qi Liu Matt J. Kusner Phil Blunsom 225 146 0 16 Mar 2020