Improving Text Embeddings with Large Language Models

31 December 2023

Liang Wang

Papers citing "Improving Text Embeddings with Large Language Models"

50 / 111 papers shown

Title
FltLM: An Intergrated Long-Context Large Language Model for Effective Context Filtering and Understanding Jingyang Deng Zhengyang Shen Boyang Wang Lixin Su Suqi Cheng Ying Nie Junfeng Wang Dawei Yin Jinwen Ma 39 1 0 09 Oct 2024
Active Evaluation Acquisition for Efficient LLM Benchmarking Yang Li Jie Ma Miguel Ballesteros Yassine Benajiba Graham Horwood ELM 31 1 0 08 Oct 2024
MEXA: Multilingual Evaluation of English-Centric LLMs via Cross-Lingual Alignment Amir Hossein Kargaran Ali Modarressi Nafiseh Nikeghbal Jana Diesner François Yvon Hinrich Schütze ELM 49 3 0 08 Oct 2024
Do We Need Domain-Specific Embedding Models? An Empirical Investigation Yixuan Tang Yi Yang AIFin 50 3 0 27 Sep 2024
Making Text Embedders Few-Shot Learners Chaofan Li Minghao Qin Shitao Xiao Jianlyu Chen Kun Luo Yingxia Shao Defu Lian Zheng Liu 38 23 0 24 Sep 2024
Lessons Learned on Information Retrieval in Electronic Health Records: A Comparison of Embedding Models and Pooling Strategies Skatje Myers Timothy A. Miller Yanjun Gao M. Churpek Anoop Mayampurath Dmitriy Dligach Majid Afshar 28 3 0 23 Sep 2024
jina-embeddings-v3: Multilingual Embeddings With Task LoRA Saba Sturua Isabelle Mohr Mohammad Kalim Akram Michael Gunther Bo Wang ... Feng Wang Georgios Mastrapas Andreas Koukounas Nan Wang Han Xiao RALM 45 25 0 16 Sep 2024
Interactive Machine Teaching by Labeling Rules and Instances Giannis Karamanolakis Daniel J. Hsu Luis Gravano 38 0 0 08 Sep 2024
Masked Mixers for Language Generation and Retrieval Benjamin L. Badger 47 0 0 02 Sep 2024
Conan-embedding: General Text Embedding with More and Better Negative Samples Shiyu Li Yang Tang Shizhe Chen Xi Chen 18 3 0 28 Aug 2024
Improving embedding with contrastive fine-tuning on small datasets with expert-augmented scores Jun Lu David Li Bill Ding Yu Kang 64 3 0 19 Aug 2024
Understanding Generative AI Content with Embedding Models Max Vargas Reilly Cannon A. Engel Anand D. Sarwate Tony Chiang 60 3 0 19 Aug 2024
Constructing Domain-Specific Evaluation Sets for LLM-as-a-judge Ravi Raju Swayambhoo Jain Bo Li Jonathan Li Urmish Thakker ALM ELM 50 11 0 16 Aug 2024
RAGChecker: A Fine-grained Framework for Diagnosing Retrieval-Augmented Generation Dongyu Ru Lin Qiu Xiangkun Hu Tianhang Zhang Peng Shi ... Tong He Zhiguo Wang Pengfei Liu Yue Zhang Zheng Zhang 51 13 0 15 Aug 2024
Fine-Tuning Large Language Models for Stock Return Prediction Using Newsflow Tian Guo E. Hauptmann AIFin 41 3 0 25 Jul 2024
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities Peng Xu Ming-Yu Liu Xianchao Wu Zihan Liu M. Shoeybi Mohammad Shoeybi Bryan Catanzaro RALM 52 14 0 19 Jul 2024
E5-V: Universal Embeddings with Multimodal Large Language Models Ting Jiang Minghui Song Zihan Zhang Haizhen Huang Weiwei Deng Feng Sun Qi Zhang Deqing Wang Fuzhen Zhuang VLM 33 21 0 17 Jul 2024
Real-Time Anomaly Detection and Reactive Planning with Large Language Models Rohan Sinha Amine Elhafsi Christopher Agia Matthew Foutter Edward Schmerling Marco Pavone OffRL LRM 45 27 0 11 Jul 2024
LETS-C: Leveraging Language Embedding for Time Series Classification Rachneet Kaur Zhen Zeng T. Balch Manuela Veloso AI4TS 41 0 0 09 Jul 2024
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models Xiangyang Li Kuicai Dong Yi Quan Lee Wei Xia Yichun Yin Xinyi Dai Yasheng Wang Ruiming Tang 65 15 0 03 Jul 2024
RankRAG: Unifying Context Ranking with Retrieval-Augmented Generation in LLMs Yue Yu Ming-Yu Liu Zihan Liu Wei Ping Jiaxuan You Chao Zhang M. Shoeybi Bryan Catanzaro ALM RALM 39 51 0 02 Jul 2024
ColPali: Efficient Document Retrieval with Vision Language Models Manuel Faysse Hugues Sibille Tony Wu Bilel Omrani Gautier Viaud C´eline Hudelot Pierre Colombo VLM 70 21 0 27 Jun 2024
From Distributional to Overton Pluralism: Investigating Large Language Model Alignment Thom Lake Eunsol Choi Greg Durrett 46 9 0 25 Jun 2024
LongRAG: Enhancing Retrieval-Augmented Generation with Long-context LLMs Ziyan Jiang Xueguang Ma Wenhu Chen RALM 55 47 0 21 Jun 2024
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images Rushikesh Zawar Shaurya Dewan Andrew F. Luo Margaret M. Henderson Michael J. Tarr Leila Wehbe VGen CoGe 44 1 0 19 Jun 2024
Thread: A Logic-Based Data Organization Paradigm for How-To Question Answering with Retrieval Augmented Generation Kaikai An Fangkai Yang Liqun Li Junting Lu Sitao Cheng ... Lele Cao Qingwei Lin Saravan Rajmohan Dongmei Zhang Qi Zhang RALM 46 1 0 19 Jun 2024
SUGARCREPE++ Dataset: Vision-Language Model Sensitivity to Semantic and Lexical Alterations Sri Harsha Dumpala Aman Jaiswal Chandramouli Shama Sastry E. Milios Sageev Oore Hassan Sajjad CoGe 43 9 0 17 Jun 2024
Ad Auctions for LLMs via Retrieval Augmented Generation Mohammadtaghi Hajiaghayi Sébastien Lahaie Keivan Rezaei Suho Shin 46 7 0 12 Jun 2024
Repurposing Language Models into Embedding Models: Finding the Compute-Optimal Recipe Alicja Ziarko Albert Q. Jiang Bartosz Piotrowski Wenda Li M. Jamnik Piotr Miłoś 40 0 0 06 Jun 2024
UltraMedical: Building Specialized Generalists in Biomedicine Kaiyan Zhang Sihang Zeng Ermo Hua Ning Ding Zhang-Ren Chen ... Xuekai Zhu Xingtai Lv Hu Jinfang Zhiyuan Liu Bowen Zhou LM&MA 43 22 0 06 Jun 2024
Towards Ontology-Enhanced Representation Learning for Large Language Models Francesco Ronzano Jay Nanavati 31 4 0 30 May 2024
Recent advances in text embedding: A Comprehensive Review of Top-Performing Methods on the MTEB Benchmark Hongliu Cao AI4TS 35 11 0 27 May 2024
NV-Embed: Improved Techniques for Training LLMs as Generalist Embedding Models Chankyu Lee Rajarshi Roy Mengyao Xu Jonathan Raiman M. Shoeybi Bryan Catanzaro Ming-Yu Liu RALM 68 145 0 27 May 2024
Crafting Interpretable Embeddings by Asking LLMs Questions Vinamra Benara Chandan Singh John X. Morris Richard Antonello Ion Stoica Alexander G. Huth Jianfeng Gao 26 5 0 26 May 2024
Piccolo2: General Text Embedding with Multi-task Hybrid Loss Training Junqin Huang Zhongjie Hu Zihao Jing Mengya Gao Yichao Wu MoE VLM 41 4 0 11 May 2024
LMD3: Language Model Data Density Dependence John Kirchenbauer Garrett Honke Gowthami Somepalli Jonas Geiping Daphne Ippolito Katherine Lee Tom Goldstein David Andre 35 6 0 10 May 2024
VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations Sri Harsha Dumpala Aman Jaiswal Chandramouli Shama Sastry E. Milios Sageev Oore Hassan Sajjad VLM CoGe 48 0 0 25 Apr 2024
Enhancing Embedding Performance through Large Language Model-based Text Enrichment and Rewriting Nicholas Harris Anand Butani Syed Hashmy 20 5 0 18 Apr 2024
LongEmbed: Extending Embedding Models for Long Context Retrieval Dawei Zhu Liang Wang Nan Yang Yifan Song Wenhao Wu Furu Wei Sujian Li RALM 43 21 0 18 Apr 2024
RAR-b: Reasoning as Retrieval Benchmark Chenghao Xiao G. Thomas Al Moubayed LRM RALM 36 8 0 09 Apr 2024
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders Parishad BehnamGhader Vaibhav Adlakha Marius Mosbach Dzmitry Bahdanau Nicolas Chapados Siva Reddy 53 185 0 09 Apr 2024
Extract, Define, Canonicalize: An LLM-based Framework for Knowledge Graph Construction Bowen Zhang Harold Soh 34 17 0 05 Apr 2024
CONFLARE: CONFormal LArge language model REtrieval Pouria Rouzrokh S. Faghani Cooper Gamble Moein Shariatnia Bradley J. Erickson 3DV RALM 42 2 0 04 Apr 2024
Gecko: Versatile Text Embeddings Distilled from Large Language Models Jinhyuk Lee Zhuyun Dai Xiaoqi Ren Blair Chen Daniel Cer ... Aditya Kusupati Prateek Jain Siddhartha Reddy Jonnalagadda Ming-Wei Chang Iftekhar Naim RALM VLM SyDa 48 41 0 29 Mar 2024
FollowIR: Evaluating and Teaching Information Retrieval Models to Follow Instructions Orion Weller Benjamin Chang Sean MacAvaney Kyle Lo Arman Cohan Benjamin Van Durme Dawn J Lawrie Luca Soldaini 63 29 0 22 Mar 2024
A Semantic Search Engine for Mathlib4 Guoxiong Gao Haocheng Ju Jiedong Jiang Zihan Qin Bin Dong 43 3 0 20 Mar 2024
Towards Open-ended Visual Quality Comparison Haoning Wu Hanwei Zhu Zicheng Zhang Erli Zhang Chaofeng Chen ... Qiong Yan Xiaohong Liu Guangtao Zhai Shiqi Wang Weisi Lin AAML 67 49 0 26 Feb 2024
SInViG: A Self-Evolving Interactive Visual Agent for Human-Robot Interaction Jie Xu Hanbo Zhang Xinghang Li Huaping Liu Xuguang Lan Tao Kong LM&Ro 38 3 0 19 Feb 2024
Pixel Sentence Representation Learning Chenghao Xiao Zhuoxu Huang Danlu Chen G. Hudson Yizhi Li Haoran Duan Chenghua Lin Jie Fu Jungong Han Noura Al Moubayed SSL 17 2 0 13 Feb 2024
Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT Jon Saad-Falcon Daniel Y. Fu Simran Arora Neel Guha Christopher Ré RALM 40 16 0 12 Feb 2024