SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

19 August 2018

Papers citing "SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing"

50 / 1,950 papers shown

Title
Transfer Learning Robustness in Multi-Class Categorization by Fine-Tuning Pre-Trained Contextualized Language Models Xinyi Liu A. Wangperawong 25 3 0 08 Sep 2019
Neural Machine Translation with Byte-Level Subwords Changhan Wang Kyunghyun Cho Jiatao Gu 90 178 0 07 Sep 2019
Investigating Multilingual NMT Representations at Scale Sneha Kudugunta Ankur Bapna Isaac Caswell N. Arivazhagan Orhan Firat LRM 198 125 0 05 Sep 2019
Subword Language Model for Query Auto-Completion Gyuwan Kim 36 15 0 02 Sep 2019
Evaluating the Cross-Lingual Effectiveness of Massively Multilingual Neural Machine Translation Aditya Siddhant Melvin Johnson Henry Tsai N. Arivazhagan Jason Riesa Ankur Bapna Orhan Firat Karthik Raman 86 71 0 01 Sep 2019
Repurposing Decoder-Transformer Language Models for Abstractive Summarization Luke de Oliveira Alfredo Láinez Rodrigo 21 4 0 01 Sep 2019
Differentiable Product Quantization for End-to-End Embedding Compression Ting Chen Lala Li Yizhou Sun MQ 55 68 0 26 Aug 2019
uniblock: Scoring and Filtering Corpus with Unicode Block Information Yingbo Gao Weiyue Wang Hermann Ney 23 1 0 26 Aug 2019
Denoising based Sequence-to-Sequence Pre-training for Text Generation Liang Wang Wei Zhao Ruoyu Jia Sujian Li Jingming Liu VLM AI4CE 86 37 0 22 Aug 2019
Prosodic Phrase Alignment for Machine Dubbing A. Oktem Mireia Farrús Antonio Bonafonte 51 29 0 20 Aug 2019
Latent-Variable Non-Autoregressive Neural Machine Translation with Deterministic Inference Using a Delta Posterior Raphael Shu Jason D. Lee Hideki Nakayama Kyunghyun Cho BDL 98 117 0 20 Aug 2019
English-Czech Systems in WMT19: Document-Level Transformer Martin Popel Dominik Machácek Michal Auersperger Ondrej Bojar Pavel Pecina 40 22 0 30 Jul 2019
Leveraging Pre-trained Checkpoints for Sequence Generation Tasks S. Rothe Shashi Narayan Aliaksei Severyn SILM 146 438 0 29 Jul 2019
Supervised and Unsupervised Neural Approaches to Text Readability Matej Martinc Senja Pollak Marko Robnik-Šikonja 99 145 0 26 Jul 2019
Naver Labs Europe's Systems for the WMT19 Machine Translation Robustness Task Alexandre Berard Ioan Calapodescu Claude Roux VLM 80 59 0 15 Jul 2019
Microsoft Translator at WMT 2019: Towards Large-Scale Document-Level Neural Machine Translation Marcin Junczys-Dowmunt 82 160 0 14 Jul 2019
The University of Edinburgh's Submissions to the WMT19 News Translation Task Rachel Bawden Nikolay Bogoychev Ulrich Germann Roman Grundkiewicz Faheem Kirefu Antonio Valerio Miceli Barone Alexandra Birch 59 32 0 12 Jul 2019
Massively Multilingual Neural Machine Translation in the Wild: Findings and Challenges N. Arivazhagan Ankur Bapna Orhan Firat Dmitry Lepikhin Melvin Johnson ... George F. Foster Colin Cherry Wolfgang Macherey Zhiwen Chen Yonghui Wu 105 428 0 11 Jul 2019
WikiMatrix: Mining 135M Parallel Sentences in 1620 Language Pairs from Wikipedia Holger Schwenk Vishrav Chaudhary Shuo Sun Hongyu Gong Francisco Guzmán CVBM 118 408 0 10 Jul 2019
ReQA: An Evaluation for End-to-End Answer Retrieval Models Amin Ahmad Noah Constant Yinfei Yang Daniel Cer RALM 76 54 0 10 Jul 2019
Multilingual Universal Sentence Encoder for Semantic Retrieval Yinfei Yang Daniel Cer Amin Ahmad Mandy Guo Jax Law ... Steve Yuan Chris Tar Yun-hsuan Sung B. Strope R. Kurzweil 3DV 94 481 0 09 Jul 2019
NTT's Machine Translation Systems for WMT19 Robustness Task Soichiro Murakami Makoto Morishita Tsutomu Hirao Masaaki Nagata VLM 49 9 0 09 Jul 2019
Applying a Pre-trained Language Model to Spanish Twitter Humor Prediction Bobak Farzin Piotr Czapla Jeremy Howard 24 7 0 06 Jul 2019
How we do things with words: Analyzing text as social and cultural data D. Nguyen Maria Liakata Simon DeDeo Jacob Eisenstein David M. Mimno Rebekah Tromble J. Winters 68 88 0 02 Jul 2019
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning Yo Joong Choe Jiyeon Ham Kyubyong Park Yeoil Yoon 67 82 0 02 Jul 2019
Findings of the First Shared Task on Machine Translation Robustness Xian Li Paul Michel Antonios Anastasopoulos Yonatan Belinkov Nadir Durrani Philipp Koehn Philipp Koehn Graham Neubig J. Pino Hassan Sajjad 76 60 0 27 Jun 2019
Conversational Response Re-ranking Based on Event Causality and Role Factored Tensor Event Embedding Shohei Tanaka Koichiro Yoshino Katsuhito Sudoh Satoshi Nakamura 49 4 0 24 Jun 2019
XLNet: Generalized Autoregressive Pretraining for Language Understanding Zhilin Yang Zihang Dai Yiming Yang J. Carbonell Ruslan Salakhutdinov Quoc V. Le AI4CE 246 8,462 0 19 Jun 2019
A Focus on Neural Machine Translation for African Languages Laura Martinus Jade Z. Abbott 61 40 0 11 Jun 2019
Word-level Speech Recognition with a Letter to Word Encoder R. Collobert Awni Y. Hannun Gabriel Synnaeve 3DV 107 4 0 10 Jun 2019
The University of Helsinki submissions to the WMT19 news translation task Aarne Talman U. Sulubacak Raúl Vázquez Yves Scherrer Sami Virpioja Alessandro Raganato A. Hurskainen Jörg Tiedemann VLM 41 7 0 10 Jun 2019
Sequence Tagging with Contextual and Non-Contextual Subword Representations: A Multilingual Evaluation Benjamin Heinzerling Michael Strube 53 36 0 04 Jun 2019
Hierarchical Transformers for Multi-Document Summarization Yang Liu Mirella Lapata 146 298 0 30 May 2019
An Investigation of Transfer Learning-Based Sentiment Analysis in Japanese Enkhbold Bataa Joshua Wu 78 33 0 23 May 2019
Target Conditioned Sampling: Optimizing Data Selection for Multilingual Neural Machine Translation Xinyi Wang Graham Neubig 82 26 0 20 May 2019
Transformers with convolutional context for ASR Abdel-rahman Mohamed Dmytro Okhonko Luke Zettlemoyer 58 169 0 26 Apr 2019
Importance of Copying Mechanism for News Headline Generation I. Gusev 53 10 0 25 Apr 2019
Sequence-to-Sequence Speech Recognition with Time-Depth Separable Convolutions Awni Y. Hannun Ann Lee Qiantong Xu R. Collobert 78 97 0 04 Apr 2019
A Large-Scale Multi-Length Headline Corpus for Analyzing Length-Constrained Headline Generation Model Evaluation Yuta Hitomi Yuya Taguchi Hideaki Tamori Ko Kikuta Jiro Nishitoba Naoaki Okazaki Kentaro Inui Manabu Okumura 65 9 0 28 Mar 2019
Grammatical Error Correction and Style Transfer via Zero-shot Monolingual Translation Elizaveta Korotkova Agnes Luhtaru Maksym Del Krista Liin Daiga Deksne Mark Fishel 62 11 0 27 Mar 2019
ETNLP: a visual-aided systematic approach to select pre-trained embeddings for a downstream task Xuan-Son Vu Thanh Tien Vu Son N. Tran Lili Jiang 51 6 0 11 Mar 2019
Non-Parametric Adaptation for Neural Machine Translation Ankur Bapna Orhan Firat 82 74 0 28 Feb 2019
Multimodal Grounding for Sequence-to-Sequence Speech Recognition Ozan Caglayan Ramon Sanabria Shruti Palaskar Loïc Barrault Florian Metze 73 25 0 09 Nov 2018
How2: A Large-scale Dataset for Multimodal Language Understanding Ramon Sanabria Ozan Caglayan Shruti Palaskar Desmond Elliott Loïc Barrault Lucia Specia Florian Metze VGen MLLM 101 292 0 01 Nov 2018
Towards End-to-End Code-Switching Speech Recognition Ne Luo Dongwei Jiang Shuaijiang Zhao Caixia Gong Wei Zou Xiangang Li 60 47 0 31 Oct 2018
Learning Cross-Lingual Sentence Representations via a Multi-task Dual-Encoder Model Muthuraman Chidambaram Yinfei Yang Daniel Cer Steve Yuan Yun-hsuan Sung B. Strope R. Kurzweil SSL 72 125 0 30 Oct 2018
Mixture of Expert/Imitator Networks: Scalable Semi-supervised Learning Framework Shun Kiyono Jun Suzuki Kentaro Inui 65 8 0 13 Oct 2018
Accelerated Reinforcement Learning for Sentence Generation by Vocabulary Prediction Kazuma Hashimoto Yoshimasa Tsuruoka 58 7 0 05 Sep 2018
R-grams: Unsupervised Learning of Semantic Units in Natural Language Ariel Ekgren Amaru Cuba Gyllensten Magnus Sahlgren 29 1 0 14 Aug 2018
Impact of Power System Partitioning on the Efficiency of Distributed Multi-Step Optimization Dongliang Chen A. Bucchiarone Zhihan Lv 42 4 0 31 May 2016