Multi-view Subword Regularization

15 March 2021

Graham Neubig

Papers citing "Multi-view Subword Regularization"

25 / 25 papers shown

Title
Deterministic Reversible Data Augmentation for Neural Machine Translation Jiashu Yao Heyan Huang Zeming Liu Yuhang Guo 51 0 0 21 Feb 2025
SubRegWeigh: Effective and Efficient Annotation Weighing with Subword Regularization Kohei Tsuji Tatsuya Hiraoka Yuchang Cheng Tomoya Iwakura 45 1 0 10 Sep 2024
Generalization Measures for Zero-Shot Cross-Lingual Transfer Saksham Bassi Duygu Ataman Kyunghyun Cho 29 0 0 24 Apr 2024
A Systematic Analysis of Subwords and Cross-Lingual Transfer in Multilingual Translation Francois Meyer Jan Buys 39 1 0 29 Mar 2024
CodeBPE: Investigating Subtokenization Options for Large Language Model Pretraining on Source Code Nadezhda Chirkova Sergey Troshin 21 8 0 01 Aug 2023
Subword Segmental Machine Translation: Unifying Segmentation and Target Sentence Generation Francois Meyer Jan Buys 43 8 0 11 May 2023
Elementwise Language Representation Du-Yeong Kim Jeeeun Kim 36 0 0 27 Feb 2023
Robust Question Answering against Distribution Shifts with Test-Time Adaptation: An Empirical Study Hai Ye Yuyang Ding Juntao Li Hwee Tou Ng OOD TTA 29 9 0 09 Feb 2023
Breaking the Representation Bottleneck of Chinese Characters: Neural Machine Translation with Stroke Sequence Modeling Zhijun Wang Xuebo Liu Min Zhang 27 11 0 23 Nov 2022
Subword Segmental Language Modelling for Nguni Languages Francois Meyer Jan Buys 27 4 0 12 Oct 2022
Language Modelling with Pixels Phillip Rust Jonas F. Lotz Emanuele Bugliarello Elizabeth Salesky Miryam de Lhoneux Desmond Elliott VLM 38 46 0 14 Jul 2022
CipherDAug: Ciphertext based Data Augmentation for Neural Machine Translation Nishant Kambhatla Logan Born Anoop Sarkar 21 16 0 01 Apr 2022
Zero-shot Commonsense Question Answering with Cloze Translation and Consistency Optimization Zi-Yi Dou Nanyun Peng ELM 15 26 0 01 Jan 2022
Fine-Tuning Transformers: Vocabulary Transfer Vladislav D. Mosin Igor Samenko Alexey Tikhonov Borislav M. Kozlovskii Ivan P. Yamshchikov 22 19 0 29 Dec 2021
Between words and characters: A Brief History of Open-Vocabulary Modeling and Tokenization in NLP Sabrina J. Mielke Zaid Alyafeai Elizabeth Salesky Colin Raffel Manan Dey ... Arun Raja Chenglei Si Wilson Y. Lee Benoît Sagot Samson Tan 32 142 0 20 Dec 2021
Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? Arij Riabi Benoît Sagot Djamé Seddah 31 15 0 26 Oct 2021
Subword Mapping and Anchoring across Languages Giorgos Vernikos Andrei Popescu-Belis 70 12 0 09 Sep 2021
How Suitable Are Subword Segmentation Strategies for Translating Non-Concatenative Morphology? Chantal Amrhein Rico Sennrich 27 13 0 02 Sep 2021
Charformer: Fast Character Transformers via Gradient-based Subword Tokenization Yi Tay Vinh Q. Tran Sebastian Ruder Jai Gupta Hyung Won Chung Dara Bahri Zhen Qin Simon Baumgartner Cong Yu Donald Metzler 51 152 0 23 Jun 2021
Specializing Multilingual Language Models: An Empirical Study Ethan C. Chau Noah A. Smith 27 27 0 16 Jun 2021
Evaluating Various Tokenizers for Arabic Text Classification Zaid Alyafeai Maged S. Al-Shaibani Mustafa Ghaleb Irfan Ahmad 37 41 0 14 Jun 2021
CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language Representation J. Clark Dan Garrette Iulia Turc John Wieting 36 210 0 11 Mar 2021
Improving Multilingual Models with Language-Clustered Vocabularies Hyung Won Chung Dan Garrette Kiat Chuan Tan Jason Riesa VLM 77 65 0 24 Oct 2020
MLQA: Evaluating Cross-lingual Extractive Question Answering Patrick Lewis Barlas Oğuz Ruty Rinott Sebastian Riedel Holger Schwenk ELM 246 493 0 16 Oct 2019
Convolutional Neural Networks for Sentence Classification Yoon Kim AILaw VLM 270 13,368 0 25 Aug 2014