Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation

21 April 2020

Papers citing "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation"

50 / 168 papers shown

Title
Advancing Arabic Reverse Dictionary Systems: A Transformer-Based Approach with Dataset Construction Guidelines Shri Kiran Srinivasan Samar Ahmed Abdullah Al Harbi Omer Nacar Adel Ammar Yasser Habashi W. Boulila 36 0 0 30 Apr 2025
Efficient Domain-adaptive Continual Pretraining for the Process Industry in the German Language Anastasia Zhukova Christian E. Matt Terry Ruas Bela Gipp CLL VLM 98 0 0 28 Apr 2025
Knowledge Distillation of Domain-adapted LLMs for Question-Answering in Telecom Rishika Sen Sujoy Roychowdhury Sumit Soman H. G. Ranjani Srikhetra Mohanty 68 0 0 28 Apr 2025
Catch Me if You Search: When Contextual Web Search Results Affect the Detection of Hallucinations Mahjabin Nahar Eun-Ju Lee Jin Won Park Dongwon Lee HILM 75 0 0 01 Apr 2025
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation Yingfeng Luo Tong Zheng Yongyu Mu Bohao Li Qinghong Zhang ... Ziqiang Xu Peinan Feng Xiaoqian Liu Tong Xiao Jingbo Zhu AI4CE 239 0 0 09 Mar 2025
Efficient Algorithms for Verifying Kruskal Rank in Sparse Linear Regression and Related Applications Fengqin Zhou 66 0 0 06 Mar 2025
A Dataset for Analysing News Framing in Chinese Media Owen Cook Yida Mu Xinye Yang Xingyi Song Kalina Bontcheva 72 1 0 06 Mar 2025
Shifting Long-Context LLMs Research from Input to Output Yuhao Wu Yushi Bai Zhiqing Hu Shangqing Tu Ming Shan Hee Juanzi Li Roy Ka-wei Lee 65 1 0 06 Mar 2025
LeDex: Training LLMs to Better Self-Debug and Explain Code Nan Jiang Xiaopeng Li Shiqi Wang Qiang Zhou Soneya Binta Hossain Baishakhi Ray Varun Kumar Xiaofei Ma Anoop Deoras LRM 92 12 0 17 Feb 2025
Hashtag Re-Appropriation for Audience Control on Recommendation-Driven Social Media Xiaohongshu (rednote) Ruyuan Wan Lingbo Tong Tiffany Knearem Toby Jia-Jun Li Ting-Hao 'Kenneth' Huang Qunfang Wu 31 0 0 30 Jan 2025
CLIX: Cross-Lingual Explanations of Idiomatic Expressions Aaron Gluck Katharina von der Wense Maria Pacheco 43 1 0 06 Jan 2025
EventSum: A Large-Scale Event-Centric Summarization Dataset for Chinese Multi-News Documents Mengna Zhu Kaisheng Zeng Mao Wang Kaiming Xiao Lei Hou Hongbin Huang Juanzi Li 262 1 0 16 Dec 2024
GOT4Rec: Graph of Thoughts for Sequential Recommendation Zewen Long Liang Wang Shu Wu Qiang Liu Liang Wang 103 1 0 22 Nov 2024
A Complexity-Based Theory of Compositionality Eric Elmoznino Thomas Jiralerspong Yoshua Bengio Guillaume Lajoie CoGe 64 5 0 18 Oct 2024
Open-Ended 3D Point Cloud Instance Segmentation Phuc D. A. Nguyen Minh Luu Anh Tran Cuong Pham Khoi Nguyen 3DPC 56 1 0 21 Aug 2024
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models Somshubra Majumdar Vahid Noroozi Sean Narenthiran Aleksander Ficek Aleksander Ficek Wasi Uddin Ahmad Jocelyn Huang Jagadeesh Balam Boris Ginsburg SyDa 58 2 0 29 Jul 2024
Modular Sentence Encoders: Separating Language Specialization from Cross-Lingual Alignment Yongxin Huang Kexin Wang Goran Glavavs Iryna Gurevych 46 0 0 20 Jul 2024
FarFetched: Entity-centric Reasoning and Claim Validation for the Greek Language based on Textually Represented Environments D. Papadopoulos Katerina Metropoulou N. Matsatsinis N. Papadakis LRM 30 3 0 13 Jul 2024
AXOLOTL'24 Shared Task on Multilingual Explainable Semantic Change Modeling Mariia Fedorova Timothee Mickus N. Partanen Janine Siewert Elena Spaziani Andrey Kutuzov 39 5 0 04 Jul 2024
SSP: Self-Supervised Prompting for Cross-Lingual Transfer to Low-Resource Languages using Large Language Models Vipul Rathore Aniruddha Deb Ankish Chandresh Parag Singla Mausam LRM 52 0 0 27 Jun 2024
FrenchToxicityPrompts: a Large Benchmark for Evaluating and Mitigating Toxicity in French Texts Caroline Brun Vassilina Nikoulina 38 1 0 25 Jun 2024
Blending LLMs into Cascaded Speech Translation: KIT's Offline Speech Translation System for IWSLT 2024 Sai Koneru Thai-Binh Nguyen Ngoc-Quan Pham Danni Liu Zhaolin Li Alexander Waibel Jan Niehues OffRL 44 3 0 24 Jun 2024
Datasets for Multilingual Answer Sentence Selection Matteo Gabburo S. Campese Federico Agostini Alessandro Moschitti 46 0 0 14 Jun 2024
Can't Hide Behind the API: Stealing Black-Box Commercial Embedding Models Manveer Singh Tamber Jasper Xian Jimmy Lin MLAU SILM 193 0 0 13 Jun 2024
Label-Synchronous Neural Transducer for E2E Simultaneous Speech Translation Keqi Deng Philip C. Woodland 43 4 0 06 Jun 2024
Analyzing Temporal Complex Events with Large Language Models? A Benchmark towards Temporal, Long Context Understanding Zhihan Zhang Yixin Cao Chenchen Ye Yunshan Ma Lizi Liao Tat-Seng Chua 44 9 0 04 Jun 2024
The Scandinavian Embedding Benchmarks: Comprehensive Assessment of Multilingual and Monolingual Text Embedding Kenneth Enevoldsen Márton Kardos Niklas Muennighoff Kristoffer Nielbo 42 9 0 04 Jun 2024
Words Blending Boxes. Obfuscating Queries in Information Retrieval using Differential Privacy Francesco Luigi De Faveri G. Faggioli Nicola Ferro AAML 44 0 0 15 May 2024
CinePile: A Long Video Question Answering Dataset and Benchmark Ruchit Rawal Khalid Saifullah Ronen Basri David Jacobs Gowthami Somepalli Tom Goldstein 43 40 0 14 May 2024
XAMPLER: Learning to Retrieve Cross-Lingual In-Context Examples Peiqin Lin André F. T. Martins Hinrich Schütze RALM 50 2 0 08 May 2024
Uncovering Agendas: A Novel French & English Dataset for Agenda Detection on Social Media Gregorios A. Katsios Ning Sa Ankita Bhaumik T. Strzalkowski 25 0 0 01 May 2024
VISLA Benchmark: Evaluating Embedding Sensitivity to Semantic and Lexical Alterations Sri Harsha Dumpala Aman Jaiswal Chandramouli Shama Sastry E. Milios Sageev Oore Hassan Sajjad VLM CoGe 48 0 0 25 Apr 2024
High-Dimension Human Value Representation in Large Language Models Samuel Cahyawijaya Delong Chen Yejin Bang Leila Khalatbari Bryan Wilie Ziwei Ji Etsuko Ishii Pascale Fung 71 5 0 11 Apr 2024
Charles Translator: A Machine Translation System between Ukrainian and Czech Martin Popel Lucie Poláková Michal Novák Jindřich Helcl Jindrich Libovický Pavel Stranák Tomás Krabac Jaroslava Hlavácová Mariia Anisimova Tereza Chlanová 27 0 0 10 Apr 2024
IITK at SemEval-2024 Task 1: Contrastive Learning and Autoencoders for Semantic Textual Relatedness in Multilingual Texts Udvas Basak Rajarshi Dutta Shivam Pandey Ashutosh Modi 39 2 0 06 Apr 2024
Sparse Concept Bottleneck Models: Gumbel Tricks in Contrastive Learning Andrei Semenov Vladimir Ivanov Aleksandr Beznosikov Alexander Gasnikov 42 6 0 04 Apr 2024
Multi-Dimensional Machine Translation Evaluation: Model Evaluation and Resource for Korean Dojun Park Sebastian Padó 45 1 0 19 Mar 2024
N-Modal Contrastive Losses with Applications to Social Media Data in Trimodal Space William Theisen Walter J. Scheirer 34 1 0 18 Mar 2024
Mevaker: Conclusion Extraction and Allocation Resources for the Hebrew Language Vitaly Shalumov Harel Haskey Yuval Solaz 52 0 0 12 Mar 2024
PIRB: A Comprehensive Benchmark of Polish Dense and Hybrid Text Retrieval Methods Slawomir Dadas Michal Perelkiewicz Rafal Poswiata 49 3 0 20 Feb 2024
What's documented in AI? Systematic Analysis of 32K AI Model Cards Weixin Liang Nazneen Rajani Xinyu Yang Ezinwanne Ozoani Eric Wu Yiqun Chen D. Smith James Zou 52 15 0 07 Feb 2024
Domain Adaptation of Multilingual Semantic Search -- Literature Review Anna Bringmann Anastasia Zhukova VLM 43 0 0 05 Feb 2024
Find the Cliffhanger: Multi-Modal Trailerness in Soap Operas Carlo Bretti Pascal Mettes Hendrik Vincent Koops Daan Odijk Nanne van Noord 33 4 0 29 Jan 2024
SMUTF: Schema Matching Using Generative Tags and Hybrid Features Yu Zhang Mei Di Haozheng Luo Chenwei Xu Richard Tzong-Han Tsai 65 0 0 22 Jan 2024
Hierarchical Classification of Transversal Skills in Job Ads Based on Sentence Embeddings Florin Leon M. Gavrilescu S. Floria A. Minea 23 1 0 10 Jan 2024
Leveraging Domain Adaptation and Data Augmentation to Improve Quránic IR in English and Arabic Vera Pavlova 23 2 0 05 Dec 2023
Cerbero-7B: A Leap Forward in Language-Specific LLMs Through Enhanced Chat Corpus Generation and Evaluation Federico A. Galatolo M. G. Cimino 43 5 0 27 Nov 2023
Searching for Snippets of Open-Domain Dialogue in Task-Oriented Dialogue Datasets Armand Stricker P. Paroubek 34 0 0 23 Nov 2023
Some Like It Small: Czech Semantic Embedding Models for Industry Applications Jirí Bednár Jakub Náplava Petra Barancíková Ondrej Lisický 30 5 0 23 Nov 2023
MacGyver: Are Large Language Models Creative Problem Solvers? Yufei Tian Abhilasha Ravichander Lianhui Qin Ronan Le Bras Raja Marjieh Nanyun Peng Yejin Choi Thomas Griffiths Faeze Brahman AI4CE LLMAG 20 11 0 16 Nov 2023