Towards General Text Embeddings with Multi-stage Contrastive Learning

7 August 2023

Papers citing "Towards General Text Embeddings with Multi-stage Contrastive Learning"

50 / 260 papers shown

Title
Prompt Compression with Context-Aware Sentence Encoding for Fast and Improved LLM Inference Barys Liskavets Maxim Ushakov Shuvendu Roy Mark Klibanov Ali Etemad Shane Luke 97 14 0 02 Sep 2024
Jina-ColBERT-v2: A General-Purpose Multilingual Late Interaction Retriever Rohan Jha Bo Wang Michael Gunther Georgios Mastrapas Saba Sturua Isabelle Mohr Andreas Koukounas Mohammad Kalim Akram Nan Wang Han Xiao 68 6 0 29 Aug 2024
Conan-embedding: General Text Embedding with More and Better Negative Samples Shiyu Li Yang Tang Shizhe Chen Xi Chen 108 5 0 28 Aug 2024
DSTI at LLMs4OL 2024 Task A: Intrinsic versus extrinsic knowledge for type classification Hanna Abi Akl 49 1 0 26 Aug 2024
IntelliCare: Improving Healthcare Analysis with Variance-Controlled Patient-Level Knowledge from Large Language Models Zhihao Yu Yujie Jin Yongxin Xu Xu Chu Yasha Wang Junfeng Zhao 101 0 0 23 Aug 2024
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design Artem Snegirev Maria Tikhonova Anna Maksimova Alena Fenogenova Alexander Abramov 217 6 0 22 Aug 2024
Mistral-SPLADE: LLMs for better Learned Sparse Retrieval Meet Doshi Vishwajeet Kumar Rudra Murthy Vignesh P Jaydeep Sen RALM 68 2 0 20 Aug 2024
ColBERT Retrieval and Ensemble Response Scoring for Language Model Question Answering Alex Gichamba Tewodros Kederalah Idris Brian Ebiyau Eric Nyberg Teruko Mitamura 43 0 0 20 Aug 2024
Improving embedding with contrastive fine-tuning on small datasets with expert-augmented scores Jun Lu David Li Bill Ding Yu Kang 98 3 0 19 Aug 2024
Understanding Generative AI Content with Embedding Models Max Vargas Reilly Cannon A. Engel Anand D. Sarwate Tony Chiang 220 3 0 19 Aug 2024
Moonshine: Distilling Game Content Generators into Steerable Generative Models Yuhe Nie Michael Middleton Tim Merino Nidhushan Kanagaraja Ashutosh Kumar Zhan Zhuang Julian Togelius 91 0 0 18 Aug 2024
wav2graph: A Framework for Supervised Learning Knowledge Graph from Speech Khai-Nguyen Nguyen Quy-Anh Dang Tan-Hanh Pham Truong-Son Hy 90 0 0 08 Aug 2024
DebateQA: Evaluating Question Answering on Debatable Knowledge Rongwu Xu Xuan Qi Zehan Qi Wei Xu Zhijiang Guo ELM 83 7 0 02 Aug 2024
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework Kunlun Zhu Yifan Luo Dingling Xu Ruobing Wang Shi Yu ... Yishan Li Zhiyuan Liu Xu Han Zhiyuan Liu Maosong Sun 223 21 0 02 Aug 2024
TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization Methods Gabriel Loiseau Damien Sileo Damien Riquet Maxime Meyer Marc Tommasi 72 0 0 31 Jul 2024
Language-Conditioned Offline RL for Multi-Robot Navigation Steven D. Morad Ajay Shankar J. Blumenkamp Amanda Prorok LM&Ro OffRL 104 7 0 29 Jul 2024
Motion Manifold Flow Primitives for Task-Conditioned Trajectory Generation under Complex Task-Motion Dependencies Yonghyeon Lee Byeongho Lee Seungyeon Kim Frank C. Park 68 1 0 29 Jul 2024
mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval Xin Zhang Yanzhao Zhang Dingkun Long Wen Xie Ziqi Dai ... Pengjun Xie Fei Huang Meishan Zhang Wenjie Li Min Zhang 136 107 0 29 Jul 2024
Open Sentence Embeddings for Portuguese with the Serafim PT* encoders family Luís Gomes António Branco Joao Silva João Rodrigues Rodrigo Santos 3DV 53 0 0 28 Jul 2024
Modular RAG: Transforming RAG Systems into LEGO-like Reconfigurable Frameworks Yunfan Gao Yun Xiong Meng Wang Haofen Wang 113 21 0 26 Jul 2024
Revolutionizing Undergraduate Learning: CourseGPT and Its Generative AI Advancements Ahmad M. Nazar Mohamed Y. Selim Ashraf Gaffar Shakil Ahmed 59 2 0 25 Jul 2024
Exploring Description-Augmented Dataless Intent Classification Ruoyu Hu Foaad Khosmood Abbas Edalat AI4TS 96 0 0 25 Jul 2024
UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models Liu Qi Yongyi He Lian Defu Zhi Zheng Tong Xu Liu Che Chen Enhong MLLM 76 2 0 23 Jul 2024
NV-Retriever: Improving text embedding models with effective hard-negative mining Gabriel de Souza P. Moreira Radek Osmulski Mengyao Xu Ronay Ak Benedikt Schifferer Even Oldridge RALM 142 47 0 22 Jul 2024
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities Peng Xu Ming-Yu Liu Xianchao Wu Zihan Liu Mohammad Shoeybi Mohammad Shoeybi Bryan Catanzaro RALM 162 21 0 19 Jul 2024
Matryoshka-Adaptor: Unsupervised and Supervised Tuning for Smaller Embedding Dimensions Jinsung Yoon Raj Sinha Sercan O. Arik Tomas Pfister 69 1 0 17 Jul 2024
$$\textit{GeoHard}$: Towards Measuring Class-wise Hardness through Modelling Class Semantics$ $\textit{GeoHard}$ : Towards Measuring Class-wise Hardness through Modelling Class Semantics Fengyu Cai Xinran Zhao Hongming Zhang Iryna Gurevych Heinz Koeppl 50 0 0 17 Jul 2024
ChatGPT Doesn't Trust Chargers Fans: Guardrail Sensitivity in Context Victoria R. Li Yida Chen Naomi Saphra 89 5 0 09 Jul 2024
LETS-C: Leveraging Text Embedding for Time Series Classification Rachneet Kaur Zhen Zeng T. Balch Manuela Veloso AI4TS 79 0 0 09 Jul 2024
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models Xiangyang Li Kuicai Dong Yi Quan Lee Wei Xia Yichun Yin Xinyi Dai Yasheng Wang Ruiming Tang 265 21 0 03 Jul 2024
MeMemo: On-device Retrieval Augmentation for Private and Personalized Text Generation Zijie J. Wang Duen Horng Chau 92 7 0 02 Jul 2024
Searching for Best Practices in Retrieval-Augmented Generation Xiaohua Wang Zhenghua Wang Xuan Gao Feiran Zhang Yixin Wu ... Qi Qian Ruicheng Yin Changze Lv Xiaoqing Zheng Xuanjing Huang 113 62 0 01 Jul 2024
BERGEN: A Benchmarking Library for Retrieval-Augmented Generation David Rau Hervé Déjean Nadezhda Chirkova Thibault Formal Shuai Wang Vassilina Nikoulina Stéphane Clinchant 86 14 0 01 Jul 2024
ProductAgent: Benchmarking Conversational Product Search Agent with Asking Clarification Questions Jingheng Ye Yong Jiang Xiaobin Wang Hai-Tao Zheng Yangning Li Hai-Tao Zheng Pengjun Xie Fei Huang 80 2 0 01 Jul 2024
PFME: A Modular Approach for Fine-grained Hallucination Detection and Editing of Large Language Models Kunquan Deng Zeyu Huang Chen Li Chenghua Lin Min Gao Wenge Rong KELM 61 0 0 29 Jun 2024
Retrieval Augmented Instruction Tuning for Open NER with Large Language Models Tingyu Xie Jian Zhang Yan Zhang Yuanyuan Liang Qi Li Hongwei Wang RALM 84 1 0 25 Jun 2024
D2LLM: Decomposed and Distilled Large Language Models for Semantic Search Zihan Liao Hang Yu Jianguo Li Jun Wang Wei Zhang 70 5 0 25 Jun 2024
Ragnarök: A Reusable RAG Framework and Baselines for TREC 2024 Retrieval-Augmented Generation Track Ronak Pradeep Nandan Thakur Sahel Sharifymoghaddam Eric Zhang Ryan Nguyen Daniel Campos Nick Craswell Jimmy Lin 127 16 0 24 Jun 2024
Enhancing Idiomatic Representation in Multiple Languages via an Adaptive Contrastive Triplet Loss Wei He M. Idiart Carolina Scarton Aline Villavicencio 78 2 0 21 Jun 2024
Text Serialization and Their Relationship with the Conventional Paradigms of Tabular Machine Learning Kyoka Ono Simon A. Lee LMTD 54 8 0 19 Jun 2024
SparseCL: Sparse Contrastive Learning for Contradiction Retrieval Haike Xu Zongyu Lin Ningyu Zhang Kai-Wei Chang Piotr Indyk 71 0 0 15 Jun 2024
Pcc-tuning: Breaking the Contrastive Learning Ceiling in Semantic Textual Similarity Bowen Zhang Chunping Li 57 0 0 14 Jun 2024
Joint Learning of Context and Feedback Embeddings in Spoken Dialogue Livia Qian Gabriel Skantze 38 0 0 11 Jun 2024
FoodSky: A Food-oriented Large Language Model that Passes the Chef and Dietetic Examination Pengfei Zhou Weiqing Min Chaoran Fu Ying Jin Mingyu Huang Xiangyang Li Shuhuan Mei Shuqiang Jiang 90 10 0 11 Jun 2024
Curating Grounded Synthetic Data with Global Perspectives for Equitable AI Elin Törnquist R. Caulk SyDa 77 5 0 10 Jun 2024
Advancing Semantic Textual Similarity Modeling: A Regression Framework with Translated ReLU and Smooth K2 Loss Bowen Zhang Chunping Li 58 2 0 08 Jun 2024
Text-Guided Alternative Image Clustering Andreas Stephan Lukas Miklautz Collin Leiber Pedro Henrique Luz de Araujo Dominik Répás Claudia Plant Benjamin Roth VLM 68 0 0 07 Jun 2024
CTSyn: A Foundational Model for Cross Tabular Data Generation Xiaofeng Lin Chenheng Xu Matthew Yang Guang Cheng 81 4 0 07 Jun 2024
Repurposing Language Models into Embedding Models: Finding the Compute-Optimal Recipe Alicja Ziarko Albert Q. Jiang Bartosz Piotrowski Wenda Li M. Jamnik Piotr Miłoś 72 1 0 06 Jun 2024
A Bi-metric Framework for Fast Similarity Search Haike Xu Sandeep Silwal Piotr Indyk FedML 54 2 0 05 Jun 2024