Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates

29 April 2018

Papers citing "Subword Regularization: Improving Neural Network Translation Models with Multiple Subword Candidates"

50 / 628 papers shown

Title
Unsupervised Term Extraction for Highly Technical Domains Francesco Fusco Peter W. J. Staar Diego Antognini 71 5 0 24 Oct 2022
Additive Interventions Yield Robust Multi-Domain Machine Translation Models Elijah Matthew Rippeth Matt Post 25 0 0 23 Oct 2022
A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models Jimin Sun Patrick Fernandes Xinyi Wang Graham Neubig 100 12 0 13 Oct 2022
Incorporating Context into Subword Vocabularies Shaked Yehezkel Yuval Pinter 100 10 0 13 Oct 2022
Subword Segmental Language Modelling for Nguni Languages Francois Meyer Jan Buys 65 5 0 12 Oct 2022
SilverAlign: MT-Based Silver Data Algorithm For Evaluating Word Alignment Abdullatif Köksal Silvia Severini Hinrich Schütze 75 0 0 12 Oct 2022
Enriching Vulnerability Reports Through Automated and Augmented Description Summarization Hattan Althebeiti David A. Mohaisen 34 4 0 03 Oct 2022
The boundaries of meaning: a case study in neural machine translation Yuri Balashov 33 2 0 02 Oct 2022
Calibrating Sequence likelihood Improves Conditional Language Generation Yao-Min Zhao Misha Khalman Rishabh Joshi Shashi Narayan Mohammad Saleh Peter J. Liu UQLM 111 135 0 30 Sep 2022
A Snapshot into the Possibility of Video Game Machine Translation Damien Hansen Pierre-Yves Houlmont 26 1 0 19 Sep 2022
MaxMatch-Dropout: Subword Regularization for WordPiece Tatsuya Hiraoka 93 9 0 09 Sep 2022
Adam Mickiewicz University at WMT 2022: NER-Assisted and Quality-Aware Neural Machine Translation Artur Nowakowski Gabriela Pałka Kamil Guttmann Miko Pokrywka 62 5 0 07 Sep 2022
Improving Contextual Recognition of Rare Words with an Alternate Spelling Prediction Model Jennifer Drexler Fox Natalie Delworth KELM 76 19 0 02 Sep 2022
A Novel Multi-Task Learning Approach for Context-Sensitive Compound Type Identification in Sanskrit Jivnesh Sandhan Ashish Gupta Hrishikesh Terdalkar Tushar Sandhan S. Samanta Laxmidhar Behera Pawan Goyal 77 4 0 22 Aug 2022
Domain-Specific Text Generation for Machine Translation Yasmin Moslem Rejwanul Haque John D. Kelleher Andy Way 66 18 0 11 Aug 2022
How Effective is Byte Pair Encoding for Out-Of-Vocabulary Words in Neural Machine Translation? Ali Araabi Christof Monz Vlad Niculae 60 10 0 10 Aug 2022
A High-Quality and Large-Scale Dataset for English-Vietnamese Speech Translation L. T. Nguyen Nguyen Luong Tran Long Doan Manh Luong Dat Quoc Nguyen 62 4 0 08 Aug 2022
Lost in Space Marking Cassandra L. Jacobs Yuval Pinter 50 1 0 02 Aug 2022
Benchmarking Azerbaijani Neural Machine Translation Chih-Chen Chen William Chen 36 0 0 29 Jul 2022
ILASR: Privacy-Preserving Incremental Learning for Automatic Speech Recognition at Production Scale Gopinath Chennupati Milind Rao Gurpreet Chadha Aaron Eakin A. Raju ... Andrew Oberlin Buddha Nandanoor Prahalad Venkataramanan Zheng Wu Pankaj Sitpure CLL 95 8 0 19 Jul 2022
MAD for Robust Reinforcement Learning in Machine Translation Domenic Donato Lei Yu Wang Ling Chris Dyer MoE 54 7 0 18 Jul 2022
u-HuBERT: Unified Mixed-Modal Speech Pretraining And Zero-Shot Transfer to Unlabeled Modality Wei-Ning Hsu Bowen Shi SSL VLM 112 43 0 14 Jul 2022
Language Modelling with Pixels Phillip Rust Jonas F. Lotz Emanuele Bugliarello Elizabeth Salesky Miryam de Lhoneux Desmond Elliott VLM 107 46 0 14 Jul 2022
Speaker Anonymization with Phonetic Intermediate Representations Sarina Meyer Florian Lux Pavel Denisov Julia Koch Pascal Tilli Ngoc Thang Vu 83 28 0 11 Jul 2022
Tandem Multitask Training of Speaker Diarisation and Speech Recognition for Meeting Transcription Xianrui Zheng Chuxu Zhang P. Woodland 73 16 0 08 Jul 2022
Reduce Indonesian Vocabularies with an Indonesian Sub-word Separator Mukhlis Amien Chong Feng Heyan Huang 34 0 0 01 Jul 2022
The THUEE System Description for the IARPA OpenASR21 Challenge Jing Zhao Haoyu Wang Jinpeng Li Shuzhou Chai Guan-Bo Wang Guoguo Chen Weiqiang Zhang VLM 34 1 0 29 Jun 2022
On Comparison of Encoders for Attention based End to End Speech Recognition in Standalone and Rescoring Mode Raviraj Joshi Subodh Kumar 75 2 0 26 Jun 2022
A Simple Baseline for Domain Adaptation in End to End ASR Systems Using Synthetic Data Raviraj Joshi Ashutosh Kumar Singh 98 10 0 22 Jun 2022
The SIGMORPHON 2022 Shared Task on Morpheme Segmentation Khuyagbaatar Batsuren Gábor Bella Aryaman Arora Viktor Martinović Kyle Gorman ... Magda vSevvcíková Katevrina Pelegrinová Fausto Giunchiglia Ryan Cotterell Ekaterina Vylomova 62 40 0 15 Jun 2022
1Cademy at Semeval-2022 Task 1: Investigating the Effectiveness of Multilingual, Multitask, and Language-Agnostic Tricks for the Reverse Dictionary Task Zhiyong Wang Ge Zhang Nineli Lashkarashvili 60 3 0 08 Jun 2022
Searching for Optimal Subword Tokenization in Cross-domain NER Ruotian Ma Yiding Tan Xin Zhou Xuanting Chen Di Liang Sirui Wang Wei Wu Tao Gui Qi Zhang OOD 105 14 0 07 Jun 2022
What do tokens know about their characters and how do they know it? Ayush Kaushal Kyle Mahowald 90 31 0 06 Jun 2022
EMS: Efficient and Effective Massively Multilingual Sentence Embedding Learning Zhuoyuan Mao Chenhui Chu Sadao Kurohashi 80 1 0 31 May 2022
Transformer with Tree-order Encoding for Neural Program Generation Klaudia Thellmann Bernhard Stadler Ricardo Usbeck Jens Lehmann 100 1 0 30 May 2022
Contextual Adapters for Personalized Speech Recognition in Neural Transducers Kanthashree Mysore Sathyendra Thejaswi Muniyappa Feng-Ju Chang Jing Liu Jinru Su Grant P. Strimel Athanasios Mouchtaris Siegfried Kunzmann 78 79 0 26 May 2022
Local Byte Fusion for Neural Machine Translation Makesh Narsimhan Sreedhar Xiangpeng Wan Yu-Jie Cheng Junjie Hu 101 4 0 23 May 2022
Translating Hanja Historical Documents to Contemporary Korean and English Juhee Son Jiho Jin Haneul Yoo Jinyeong Bak Kyunghyun Cho Alice Oh 72 5 0 20 May 2022
Evaluation of Transfer Learning for Polish with a Text-to-Text Model Aleksandra Chrabrowa Lukasz Dragan Karol Grzegorczyk D. Kajtoch Mikołaj Koszowski Robert Mroczkowski Piotr Rybak 81 18 0 18 May 2022
FactPEGASUS: Factuality-Aware Pre-training and Fine-tuning for Abstractive Summarization David Wan Joey Tianyi Zhou HILM 55 70 0 16 May 2022
IRB-NLP at SemEval-2022 Task 1: Exploring the Relationship Between Words and Their Semantic Representations Damir Korenčić Ivan Grubišić 55 3 0 13 May 2022
Quantifying Synthesis and Fusion and their Impact on Machine Translation Arturo Oncevay Duygu Ataman N. V. Berkel Barry Haddow Alexandra Birch Johannes Bjerva 42 3 0 06 May 2022
A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation David Ifeoluwa Adelani Jesujoba Oluwadara Alabi Angela Fan Julia Kreutzer Xiaoyu Shen ... Ayodele Awokoya Happy Buzaaba Blessing K. Sibanda Andiswa Bukula Sam Manthalu 86 119 0 04 May 2022
CoCa: Contrastive Captioners are Image-Text Foundation Models Jiahui Yu Zirui Wang Vijay Vasudevan Legg Yeung Mojtaba Seyedhosseini Yonghui Wu VLM CLIP OffRL 305 1,312 0 04 May 2022
How Robust is Neural Machine Translation to Language Imbalance in Multilingual Tokenizer Training? Shiyue Zhang Vishrav Chaudhary Naman Goyal James Cross Guillaume Wenzek Joey Tianyi Zhou Francisco Guzman 71 16 0 29 Apr 2022
CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers Ming Ding Wendi Zheng Wenyi Hong Jie Tang VLM 161 335 0 28 Apr 2022
Improving Multimodal Speech Recognition by Data Augmentation and Speech Representations Dan Oneaţă H. Cucu 51 19 0 27 Apr 2022
How can NLP Help Revitalize Endangered Languages? A Case Study and Roadmap for the Cherokee Language Shiyue Zhang B. Frey Joey Tianyi Zhou 60 40 0 25 Apr 2022
A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task Learning Md. Mofijul Islam Gustavo Aguilar Pragaash Ponnusamy Clint Solomon Mathialagan Chengyuan Ma Chenlei Guo VLM 148 10 0 22 Apr 2022
Layer-wise Fast Adaptation for End-to-End Multi-Accent Speech Recognition Xun Gong Y. Qian Houjun Huang Yanmin Qian 81 46 0 21 Apr 2022