Towards General Text Embeddings with Multi-stage Contrastive Learning

7 August 2023

Papers citing "Towards General Text Embeddings with Multi-stage Contrastive Learning"

50 / 260 papers shown

Title
REIS: A High-Performance and Energy-Efficient Retrieval System with In-Storage Processing Kangqi Chen Andreas Kosmas Kakolyris Rakesh Nadig Manos Frouzakis Nika Mansouri-Ghiasi Yu Liang Haiyu Mao Jisung Park Mohammad Sadrosadati Onur Mutlu RALM 38 0 0 19 Jun 2025
Capturing Polysemanticity with PRISM: A Multi-Concept Feature Description Framework Laura Kopf Nils Feldhus Kirill Bykov P. Bommer Anna Hedström Marina M.-C. Höhne Oliver Eberle 28 0 0 18 Jun 2025
TongSearch-QR: Reinforced Query Reasoning for Retrieval Xubo Qin Jun Bai Jiaqi Li Zixia Jia Zilong Zheng ReLM RALM LRM 47 0 0 13 Jun 2025
Spelling-out is not Straightforward: LLMs' Capability of Tokenization from Token to Characters Tatsuya Hiraoka Kentaro Inui 121 0 0 12 Jun 2025
Efficient Context Selection for Long-Context QA: No Tuning, No Iteration, Just Adaptive- $k$ Chihiro Taguchi Seiji Maekawa Nikita Bhutani RALM 27 0 0 10 Jun 2025
ThinkQE: Query Expansion via an Evolving Thinking Process Yibin Lei Tao Shen Andrew Yates ReLM LRM 43 0 0 10 Jun 2025
A Comprehensive Study of Decoder-Only LLMs for Text-to-Image Generation Andrew Z. Wang Songwei Ge Tero Karras Ming-Yu Liu Yogesh Balaji 32 0 0 09 Jun 2025
LEANN: A Low-Storage Vector Index Yichuan Wang Shu Liu Zhifei Li Yongji Wu Ziming Mao ... Yang Zhou Ion Stoica Sewon Min Matei A. Zaharia Joseph E. Gonzalez 25 0 0 09 Jun 2025
MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks Sanjoy Chowdhury Mohamed Elmoghany Yohan Abeysinghe Junjie Fei Sayan Nag Salman Khan Mohamed Elhoseiny Dinesh Manocha 35 0 0 08 Jun 2025
Text-to-LoRA: Instant Transformer Adaption Rujikorn Charakorn Edoardo Cetin Yujin Tang Robert Tjarko Lange AI4CE 56 0 0 06 Jun 2025
Static Word Embeddings for Sentence Semantic Representation Takashi Wada Yuki Hirakawa Ryotaro Shimizu Takahiro Kawashima Yuki Saito 93 0 0 05 Jun 2025
Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models Yanzhao Zhang Mingxin Li Dingkun Long Xin Zhang Huan Lin ... An Yang Dayiheng Liu Junyang Lin Fei Huang Jingren Zhou 127 1 0 05 Jun 2025
Multilingual Information Retrieval with a Monolingual Knowledge Base Yingying Zhuang Aman Gupta Anurag Beniwal 62 0 0 03 Jun 2025
When Should Dense Retrievers Be Updated in Evolving Corpora? Detecting Out-of-Distribution Corpora Using GradNormIR Dayoon Ko Jinyoung Kim Sohyeon Kim Jinhyuk Kim Jaehoon Lee Seonghak Song Minyoung Lee Gunhee Kim 57 0 0 02 Jun 2025
Harnessing Large Language Models for Scientific Novelty Detection Y. Liu Zonglin Yang Soujanya Poria T. Nguyen Erik Cambria 29 0 0 30 May 2025
GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training Omer Nacar Anis Koubaa Serry Sibaee Yasser Habashi Adel Ammar W. Boulila 74 0 0 30 May 2025
Beyond Semantic Entropy: Boosting LLM Uncertainty Quantification with Pairwise Semantic Similarity Dang Nguyen Ali Payani Baharan Mirzasoleiman 20 0 0 30 May 2025
Context is Gold to find the Gold Passage: Evaluating and Training Contextual Document Embeddings Max Conti Manuel Faysse Gautier Viaud Antoine Bosselut C´eline Hudelot Pierre Colombo 64 0 0 30 May 2025
Uncovering Visual-Semantic Psycholinguistic Properties from the Distributional Structure of Text Embedding Space Si Wu Sebastian Bruch 61 0 0 29 May 2025
Safeguarding Privacy of Retrieval Data against Membership Inference Attacks: Is This Query Too Close to Home? Yujin Choi Youngjoo Park Junyoung Byun Jaewook Lee Jinseong Park AAML 54 0 0 28 May 2025
VRAG-RL: Empower Vision-Perception-Based RAG for Visually Rich Information Understanding via Iterative Reasoning with Reinforcement Learning Qiuchen Wang Ruixue Ding Y. Zeng Zehui Chen Lin Yen-Chen Shihang Wang Pengjun Xie Fei Huang Feng Zhao VLM LRM 88 0 0 28 May 2025
Query Drift Compensation: Enabling Compatibility in Continual Learning of Retrieval Embedding Models Dipam Goswami Liying Wang Bartłomiej Twardowski Joost van de Weijer 35 0 0 27 May 2025
Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning Jaehun Jung Seungju Han Ximing Lu Skyler Hallinan David Acuna Shrimai Prabhumoye M. Patwary Mohammad Shoeybi Bryan Catanzaro Yejin Choi SyDa 31 1 0 26 May 2025
The Avengers: A Simple Recipe for Uniting Smaller Language Models to Challenge Proprietary Giants Yiqun Zhang Hao Li Chenxu Wang L. Chen Qiaosheng Zhang ... Xinrun Wang Jia Xu Lei Bai Wanli Ouyang Shuyue Hu 79 0 0 26 May 2025
Self-reflective Uncertainties: Do LLMs Know Their Internal Answer Distribution? Michael Kirchhof Luca Füger Adam Goliñski Eeshan Gunesh Dhekane Arno Blaas Sinead Williamson 37 1 0 26 May 2025
Enhancing Training Data Attribution with Representational Optimization W. Sun Haokun Liu Nikhil Kandpal Colin Raffel Yiming Yang TDI 48 0 0 24 May 2025
RaDeR: Reasoning-aware Dense Retrieval Models Debrup Das Sam O' Nuallain Razieh Rahimi RALM LRM 75 1 0 23 May 2025
PD $^3$ : A Project Duplication Detection Framework via Adapted Multi-Agent Debate Dezheng Bao Yueci Yang Xin Chen Zhengxuan Jiang Zeguo Fei ... Xuanwen Huang Junru Chen Chutian Yu Xiang Yuan Yang Yang 205 0 0 23 May 2025
$QwenLong-CPRS: Towards $\infty$-LLMs with Dynamic Context Optimization$ QwenLong-CPRS: Towards $\infty$ -LLMs with Dynamic Context Optimization Weizhou Shen Chenliang Li Fanqi Wan Shengyi Liao Shaopeng Lai ... Bin Yang Ji Zhang Fei Huang Jingren Zhou Ming Yan 49 1 0 23 May 2025
Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation Derong Xu Pengyue Jia Xiaopeng Li Yingyi Zhang Maolin Wang ... Yichao Wang Huifeng Guo Ruiming Tang Enhong Chen Tong Xu RALM 84 0 0 22 May 2025
Scalable Defense against In-the-wild Jailbreaking Attacks with Safety Context Retrieval Taiye Chen Zeming Wei Ang Li Yisen Wang AAML 71 2 0 21 May 2025
Output Scaling: YingLong-Delayed Chain of Thought in a Large Pretrained Time Series Forecasting Model Xue Wang Tian Zhou Jinyang Gao Bolin Ding Jingren Zhou AI4TS AI4CE LRM 17 0 0 20 May 2025
Benchmarking the Myopic Trap: Positional Bias in Information Retrieval Ziyang Zeng Dun Zhang Jiacheng Li Panxiang Zou Yuqing Yang 78 0 0 20 May 2025
DisastIR: A Comprehensive Information Retrieval Benchmark for Disaster Management Kai Yin Xiangjue Dong Chengkai Liu Lipai Huang Yiming Xiao Zhewei Liu Ali Mostafavi James Caverlee 93 0 0 20 May 2025
R3: Robust Rubric-Agnostic Reward Models David Anugraha Zilu Tang Lester James V. Miranda Hanyang Zhao Mohammad Rifqi Farhansyah Garry Kuwanto Derry Wijaya Genta Indra Winata 215 1 0 19 May 2025
Harnessing the Universal Geometry of Embeddings Rishi Jha Collin Zhang Vitaly Shmatikov John X. Morris 93 4 0 18 May 2025
UniMoCo: Unified Modality Completion for Robust Multi-Modal Embeddings Jiajun Qin Yuan Pu Zhuolun He Seunggeun Kim David Z. Pan Bei Yu 106 0 0 17 May 2025
mmRAG: A Modular Benchmark for Retrieval-Augmented Generation over Text, Tables, and Knowledge Graphs Chuan Xu Qiaosheng Chen Yutong Feng Gong Cheng RALM 3DV VLM 110 0 0 16 May 2025
Breaking the Batch Barrier (B3) of Contrastive Learning via Smart Batch Mining Raghuveer Thirukovalluru Rui Meng Yang Liu Karthikeyan K Mingyi Su Ping Nie Semih Yavuz Yingbo Zhou Wenhu Chen Bhuwan Dhingra 85 1 0 16 May 2025
Real-Time Out-of-Distribution Failure Prevention via Multi-Modal Reasoning Milan Ganai Rohan Sinha Christopher Agia Daniel Morton Marco Pavone OffRL LRM AI4CE 230 0 0 15 May 2025
Adaptive Schema-aware Event Extraction with Retrieval-Augmented Generation Sheng Liang Hang Lv Zhihao Wen Yaxiong Wu Yanzhe Zhang Hao Wang Yang Liu 74 1 0 13 May 2025
NewsNet-SDF: Stochastic Discount Factor Estimation with Pretrained Language Model News Embeddings via Adversarial Networks Shunyao Wang Ming Cheng Christina Dan Wang AIFin 83 0 0 11 May 2025
Cape: Context-Aware Prompt Perturbation Mechanism with Differential Privacy Haoqi Wu Wei Dai Li Wang Qiang Yan SILM 135 1 0 09 May 2025
UKElectionNarratives: A Dataset of Misleading Narratives Surrounding Recent UK General Elections Fatima Haouari Carolina Scarton Nicolò Faggiani Nikolaos Nikolaidis Bonka Kotseva Ibrahim Abu Farha Jens Linge Kalina Bontcheva 97 0 0 08 May 2025
SweRank: Software Issue Localization with Code Ranking R. Reddy Tarun Suresh JaeHyeok Doo Yang Liu Xuan-Phi Nguyen Yingbo Zhou Semih Yavuz Caiming Xiong Heng Ji Shafiq Joty 77 0 0 07 May 2025
SimAug: Enhancing Recommendation with Pretrained Language Models for Dense and Balanced Data Augmentation Yuying Zhao Xiaodong Yang Huiyuan Chen Xiran Fan Yu Wang Y. Cai Hanyu Wang 76 0 0 03 May 2025
PropRAG: Guiding Retrieval with Beam Search over Proposition Paths Jingjin Wang LRM 441 0 0 25 Apr 2025
Out-of-the-Box Conditional Text Embeddings from Large Language Models Kosuke Yamada Peinan Zhang 61 1 0 23 Apr 2025
FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation Chanyeol Choi Jihoon Kwon Jaeseon Ha Hojun Choi Chaewoon Kim Yongjae Lee Jy-yong Sohn Alejandro Lopez-Lira RALM 199 1 0 22 Apr 2025
RainbowPlus: Enhancing Adversarial Prompt Generation via Evolutionary Quality-Diversity Search Quy-Anh Dang Chris Ngo Truong-Son Hy AAML SyDa 93 0 0 21 Apr 2025