Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation

21 April 2020

Papers citing "Making Monolingual Sentence Embeddings Multilingual using Knowledge Distillation"

50 / 169 papers shown

Title
Leveraging LLMs for Synthesizing Training Data Across Many Languages in Multilingual Dense Retrieval Nandan Thakur Jianmo Ni Gustavo Hernández Ábrego John Wieting Jimmy J. Lin Daniel Cer RALM 49 12 0 10 Nov 2023
torchdistill Meets Hugging Face Libraries for Reproducible, Coding-Free Deep Learning Studies: A Case Study on NLP Yoshitomo Matsubara VLM 34 1 0 26 Oct 2023
Language Models are Universal Embedders Xin Zhang Zehan Li Yanzhao Zhang Dingkun Long Pengjun Xie Meishan Zhang Min Zhang KELM ELM 58 6 0 12 Oct 2023
A Process for Topic Modelling Via Word Embeddings Diego Saldana Ulloa 26 0 0 06 Oct 2023
Unsupervised Deep Cross-Language Entity Alignment Chuanyu Jiang Yiming Qian Lijun Chen Yang Gu Xia Xie 44 5 0 19 Sep 2023
Benchmarking Procedural Language Understanding for Low-Resource Languages: A Case Study on Turkish Arda Uzunouglu Gözde Gül Sahin 39 4 0 13 Sep 2023
C-CLIP: Contrastive Image-Text Encoders to Close the Descriptive-Commentative Gap William Theisen Walter J. Scheirer CLIP VLM 42 2 0 06 Sep 2023
Graecia capta ferum victorem cepit. Detecting Latin Allusions to Ancient Greek Literature Frederick Riemenschneider Anette Frank 22 1 0 23 Aug 2023
Targeted and Troublesome: Tracking and Advertising on Children's Websites Zahra Moti Asuman Senol Hamid Bostani F. Z. Borgesius Veelasha Moonsamy Arunesh Mathur Gunes Acar 51 2 0 09 Aug 2023
Collective Human Opinions in Semantic Textual Similarity Yuxia Wang Shimin Tao Ning Xie Hao Yang Timothy Baldwin Karin Verspoor 29 4 0 08 Aug 2023
AspectCSE: Sentence Embeddings for Aspect-based Semantic Textual Similarity Using Contrastive Learning and Structured Knowledge Tim Schopf Emanuel Gerber Malte Ostendorff Florian Matthes 58 4 0 15 Jul 2023
Massively Multilingual Corpus of Sentiment Datasets and Multi-faceted Sentiment Classification Benchmark Lukasz Augustyniak Szymon Wo'zniak Marcin Gruza Piotr Gramacki Krzysztof Rajda M. Morzy Tomasz Kajdanowicz 33 5 0 13 Jun 2023
KIT's Multilingual Speech Translation System for IWSLT 2023 Danni Liu Thai-Binh Nguyen Sai Koneru Enes Yavuz Ugan Ngoc-Quan Pham Tuan-Nam Nguyen Tu Anh Dinh Carlos Mullov A. Waibel Jan Niehues 33 7 0 08 Jun 2023
Exploring Anisotropy and Outliers in Multilingual Language Models for Cross-Lingual Semantic Sentence Similarity Katharina Hämmerl Alina Fastowski Jindrich Libovický Alexander Fraser 30 6 0 01 Jun 2023
Where's the Point? Self-Supervised Multilingual Punctuation-Agnostic Sentence Segmentation Benjamin Minixhofer Jonas Pfeiffer Ivan Vulić 36 17 0 30 May 2023
BUCA: A Binary Classification Approach to Unsupervised Commonsense Question Answering Jie He U. SimonChiLok Víctor Gutiérrez-Basulto Jeff Z. Pan 49 10 0 25 May 2023
Target-Agnostic Gender-Aware Contrastive Learning for Mitigating Bias in Multilingual Machine Translation Minwoo Lee Hyukhun Koh Kang-il Lee Dongdong Zhang Minsu Kim Kyomin Jung 35 9 0 23 May 2023
Description-Based Text Similarity Shauli Ravfogel Valentina Pyatkin Amir D. N. Cohen Avshalom Manevich Yoav Goldberg 28 5 0 21 May 2023
Knowledge Rumination for Pre-trained Language Models Yunzhi Yao Peng Wang Shengyu Mao Chuanqi Tan Fei Huang Huajun Chen Ningyu Zhang KELM 32 3 0 15 May 2023
Similarity-weighted Construction of Contextualized Commonsense Knowledge Graphs for Knowledge-intense Argumentation Tasks Moritz Plenz Juri Opitz Philipp Heinisch Philipp Cimiano Anette Frank 37 9 0 15 May 2023
NLP-based Cross-Layer 5G Vulnerabilities Detection via Fuzzing Generated Run-Time Profiling Zhuzhu Wang Ying Wang 25 7 0 14 May 2023
PESTS: Persian_English Cross Lingual Corpus for Semantic Textual Similarity M. Abdous Poorya Piroozfar B. Minaei-Bidgoli 24 1 0 13 May 2023
Going beyond research datasets: Novel intent discovery in the industry setting Aleksandra Chrabrowa Tsimur Hadeliya D. Kajtoch Robert Mroczkowski Piotr Rybak 24 2 0 09 May 2023
Investigating Lexical Sharing in Multilingual Machine Translation for Indian Languages Sonal Sannigrahi Rachel Bawden 37 0 0 04 May 2023
Are the Best Multilingual Document Embeddings simply Based on Sentence Embeddings? Sonal Sannigrahi Josef van Genabith C. España-Bonet AILaw 42 4 0 28 Apr 2023
Compressing Sentence Representation with maximum Coding Rate Reduction Domagoj Ševerdija Tomislav Prusina Antonio Jovanovic Luka Borozan Jurica Maltar Domagoj Matijević 26 2 0 25 Apr 2023
Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects Clément Sicard Kajetan Pyszkowski Victor Gillioz 26 7 0 20 Apr 2023
A Survey of Corpora for Germanic Low-Resource Languages and Dialects Verena Blaschke Hinrich Schütze Barbara Plank 27 13 0 19 Apr 2023
OPI at SemEval 2023 Task 1: Image-Text Embeddings and Multimodal Information Retrieval for Visual Word Sense Disambiguation Slawomir Dadas 24 5 0 14 Apr 2023
Are LLMs All You Need for Task-Oriented Dialogue? Vojtvech Hudevcek Ondrej Dusek 28 57 0 13 Apr 2023
Pragmatically Appropriate Diversity for Dialogue Evaluation Katherine Stasaski Marti A. Hearst 27 1 0 06 Apr 2023
Hitachi at SemEval-2023 Task 3: Exploring Cross-lingual Multi-task Strategies for Genre and Framing Detection in Online News Yuta Koreeda Ken-ichi Yokote Hiroaki Ozaki Atsuki Yamaguchi Masaya Tsunokake Yasuhiro Sogawa 32 3 0 03 Mar 2023
Cross-Lingual Question Answering over Knowledge Base as Reading Comprehension Chen Zhang Yuxuan Lai Yansong Feng Xingyu Shen Haowei Du Dongyan Zhao 21 3 0 26 Feb 2023
LEALLA: Learning Lightweight Language-agnostic Sentence Embeddings with Knowledge Distillation Zhuoyuan Mao Tetsuji Nakagawa FedML 19 19 0 16 Feb 2023
Modeling Sequential Sentence Relation to Improve Cross-lingual Dense Retrieval Shunyu Zhang Yaobo Liang Ming Gong Daxin Jiang Nan Duan 27 4 0 03 Feb 2023
Improving Cross-lingual Information Retrieval on Low-Resource Languages via Optimal Transport Distillation Zhiqi Huang Puxuan Yu James Allan VLM 38 26 0 29 Jan 2023
On the State of German (Abstractive) Text Summarization Dennis Aumiller Jing Fan Michael Gertz 28 1 0 17 Jan 2023
Automated speech- and text-based classification of neuropsychiatric conditions in a multidiagnostic setting L. Hansen R. Rocca A. Simonsen A. Parola V. Bliksted ... Dan Bang Kristian Tylén Ethan Weed S. Ostergaard Riccardo Fusaroli 51 3 0 13 Jan 2023
Multi-hop Evidence Retrieval for Cross-document Relation Extraction Keming Lu I-Hung Hsu Wenxuan Zhou Mingyu Derek Ma Muhao Chen LRM 30 11 0 21 Dec 2022
BMX: Boosting Natural Language Generation Metrics with Explainability Christoph Leiter Hoang-Quan Nguyen Steffen Eger ELM 24 0 0 20 Dec 2022
MULTI3NLU++: A Multilingual, Multi-Intent, Multi-Domain Dataset for Natural Language Understanding in Task-Oriented Dialogue Nikita Moghe E. Razumovskaia Liane Guillou Ivan Vulić Anna Korhonen Alexandra Birch 45 13 0 20 Dec 2022
Human in the loop: How to effectively create coherent topics by manually labeling only a few documents per class Anton Thielmann Christoph Weisser Benjamin Säfken 16 3 0 19 Dec 2022
Towards a general purpose machine translation system for Sranantongo Just Zwennicker David Stap 30 4 0 13 Dec 2022
A Commonsense-Infused Language-Agnostic Learning Framework for Enhancing Prediction of Political Polarity in Multilingual News Headlines Swati Swati Adrian Mladenic Grobelnik Dunja Mladenić M. Grobelnik 32 3 0 01 Dec 2022
Multilingual and Multimodal Topic Modelling with Pretrained Embeddings Elaine Zosa Lidia Pivovarova BDL 18 8 0 15 Nov 2022
English Contrastive Learning Can Learn Universal Cross-lingual Sentence Embeddings Yau-Shian Wang Ashley Wu Graham Neubig SSL 38 31 0 11 Nov 2022
SpeechMatrix: A Large-Scale Mined Corpus of Multilingual Speech-to-Speech Translations Paul-Ambroise Duquenne Hongyu Gong Ning Dong Jingfei Du Ann Lee Vedanuj Goswani Changhan Wang J. Pino Benoît Sagot Holger Schwenk 45 34 0 08 Nov 2022
Multi-level Distillation of Semantic Knowledge for Pre-training Multilingual Language Model Mingqi Li Fei Ding Dan Zhang Long Cheng Hongxin Hu Feng Luo 43 6 0 02 Nov 2022
EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form Summarization in the Legal Domain Dennis Aumiller Ashish Chouhan Michael Gertz ELM AILaw 54 35 0 24 Oct 2022
Graphemic Normalization of the Perso-Arabic Script R. Doctor Alexander Gutkin Cibu Johny Brian Roark R. Sproat 44 4 0 21 Oct 2022