SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

19 August 2018

Papers citing "SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing"

50 / 1,950 papers shown

Title
Scaling Data-Constrained Language Models Niklas Muennighoff Alexander M. Rush Boaz Barak Teven Le Scao Aleksandra Piktus Nouamane Tazi S. Pyysalo Thomas Wolf Colin Raffel ALM 181 226 0 25 May 2023
RAND: Robustness Aware Norm Decay For Quantized Seq2seq Models David Qiu David Rim Shaojin Ding Oleg Rybakov Yanzhang He MQ 77 4 0 24 May 2023
CMOT: Cross-modal Mixup via Optimal Transport for Speech Translation Yan Zhou Qingkai Fang Yang Feng OT 119 30 0 24 May 2023
From Characters to Words: Hierarchical Pre-trained Language Model for Open-vocabulary Language Understanding Li Sun F. Luisier Kayhan Batmanghelich D. Florêncio Changrong Zhang VLM 42 6 0 23 May 2023
Cascaded Beam Search: Plug-and-Play Terminology-Forcing For Neural Machine Translation Frédéric Odermatt Béni Egressy Roger Wattenhofer 38 0 0 23 May 2023
How to Choose How to Choose Your Chatbot: A Massively Multi-System MultiReference Data Set for Dialog Metric Evaluation Huda Khayrallah Zuhaib Akhtar Edward Cohen João Sedoc 59 2 0 23 May 2023
NAIL: Lexical Retrieval Indices with Efficient Non-Autoregressive Decoders Livio Baldini Soares D. Gillick Jeremy R. Cole Tom Kwiatkowski 70 1 0 23 May 2023
Multilingual Pixel Representations for Translation and Effective Cross-lingual Transfer Elizabeth Salesky Neha Verma Philipp Koehn Matt Post 93 16 0 23 May 2023
Training Transitive and Commutative Multimodal Transformers with LoReTTa Manuel Tran Yashin Dicente Cid Amal Lahiani Fabian J. Theis Tingying Peng Eldad Klaiman 54 2 0 23 May 2023
Exploring Representational Disparities Between Multilingual and Bilingual Translation Models Neha Verma Kenton W. Murray Kevin Duh 79 0 0 23 May 2023
CompoundPiece: Evaluating and Improving Decompounding Performance of Language Models Benjamin Minixhofer Jonas Pfeiffer Ivan Vulić 77 7 0 23 May 2023
$μ$ PLAN: Summarizing using a Content Plan as Cross-Lingual Bridge Fantine Huot Joshua Maynez Chris Alberti Reinald Kim Amplayo Priyanka Agrawal Constanza Fierro Shashi Narayan Mirella Lapata 105 7 0 23 May 2023
Improving speech translation by fusing speech and text Wenbiao Yin Zhicheng Liu Chengqi Zhao Tao Wang Jian-Fei Tong Rong Ye 56 4 0 23 May 2023
Condensing Multilingual Knowledge with Lightweight Language-Specific Modules Haoran Xu Weiting Tan Shuyue Stella Li Yunmo Chen Benjamin Van Durme Philipp Koehn Kenton W. Murray 85 7 0 23 May 2023
Challenges in Context-Aware Neural Machine Translation Linghao Jin Jacqueline He Jonathan May Xuezhe Ma 90 7 0 23 May 2023
Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for Low-Resource Speech Recognition with Transducers J. Silovský Liuhui Deng Arturo Argueta Tresi Arvizo Roger Hsiao Sasha Kuznietsov Yiu-Chang Lin Xiaoqiang Xiao Yuanyuan Zhang 52 3 0 23 May 2023
AxomiyaBERTa: A Phonologically-aware Transformer Model for Assamese Abhijnan Nath Sheikh Mannan Nikhil Krishnaswamy 68 6 0 23 May 2023
Neural Machine Translation for Code Generation K. Dharma Clayton T. Morrison 119 4 0 22 May 2023
Text Generation with Speech Synthesis for ASR Data Augmentation Zhuangqun Huang Gil Keren Ziran Jiang Shashank Jain David Goss-Grubbs ... Antony DÁvirro Ethan Campbell-Taylor Jessie Salas Irina-Elena Veliche Xi Chen 62 8 0 22 May 2023
Multilingual Holistic Bias: Extending Descriptors and Patterns to Unveil Demographic Biases in Languages at Scale Marta R. Costa-jussá Pierre Yves Andrews Eric Michael Smith Prangthip Hansanti C. Ropers Elahe Kalbassi Cynthia Gao Daniel Licht Carleigh Wood 57 18 0 22 May 2023
A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity Shayne Longpre Gregory Yauney Emily Reif Katherine Lee Adam Roberts ... Denny Zhou Jason W. Wei Kevin Robinson David M. Mimno Daphne Ippolito 117 168 0 22 May 2023
GPT-SW3: An Autoregressive Language Model for the Nordic Languages Ariel Ekgren Amaru Cuba Gyllensten Felix Stollenwerk Joey Öhman T. Isbister Evangelia Gogoulou F. Carlsson Alice Heiman Judit Casademont Magnus Sahlgren 88 13 0 22 May 2023
SLaDe: A Portable Small Language Model Decompiler for Optimized Assembly Jordi Armengol-Estapé Jackson Woodruff Chris Cummins Michael F. P. O'Boyle 91 19 0 21 May 2023
Multi-Head State Space Model for Speech Recognition Yassir Fathullah Chunyang Wu Yuan Shangguan Junteng Jia Wenhan Xiong ... Chunxi Liu Yangyang Shi Ozlem Kalinli M. Seltzer Mark Gales 68 14 0 21 May 2023
Machine Translation by Projecting Text into the Same Phonetic-Orthographic Space Using a Common Encoding Amit Kumar Shantipriya Parida A. Pratap Anil Kumar Singh 78 2 0 21 May 2023
Lifelong Language Pretraining with Distribution-Specialized Experts Wuyang Chen Yan-Quan Zhou Nan Du Yanping Huang James Laudon Zhiwen Chen Claire Cu KELM 106 52 0 20 May 2023
Glot500: Scaling Multilingual Corpora and Language Models to 500 Languages Ayyoob Imani Peiqin Lin Amir Hossein Kargaran Silvia Severini Masoud Jalili Sabet ... Chunlan Ma Helmut Schmid André F. T. Martins François Yvon Hinrich Schütze ALM LRM 136 107 0 20 May 2023
Can Public Large Language Models Help Private Cross-device Federated Learning? Wei Ping Yibo Jacky Zhang Yuan Cao Yue Liu H. B. McMahan Sewoong Oh Zheng Xu Manzil Zaheer FedML 117 40 0 20 May 2023
Multimodal Web Navigation with Instruction-Finetuned Foundation Models Hiroki Furuta Kuang-Huei Lee Ofir Nachum Yutaka Matsuo Aleksandra Faust S. Gu Izzeddin Gur LM&Ro 179 103 0 19 May 2023
DUB: Discrete Unit Back-translation for Speech Translation Dong Zhang Rong Ye Tom Ko Mingxuan Wang Yaqian Zhou 90 27 0 19 May 2023
Exploiting Biased Models to De-bias Text: A Gender-Fair Rewriting Model Chantal Amrhein Florian Schottmann Rico Sennrich Samuel Läubli 120 17 0 18 May 2023
mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences David C. Uthus Santiago Ontañón Joshua Ainslie Mandy Guo VLM 49 11 0 18 May 2023
On the Off-Target Problem of Zero-Shot Multilingual Neural Machine Translation Liang Chen Shuming Ma Dongdong Zhang Furu Wei Baobao Chang 77 5 0 18 May 2023
Massively Multi-Lingual Event Understanding: Extraction, Visualization, and Search Chris Jenkins Shantanu Agarwal Joel Barry Steven Fincke Elizabeth Boschee 52 6 0 17 May 2023
Accelerating Transformer Inference for Translation via Parallel Decoding Andrea Santilli Silvio Severino Emilian Postolache Valentino Maiorca Michele Mancusi R. Marin Emanuele Rodolà 123 90 0 17 May 2023
Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability Eleftheria Briakou Colin Cherry George F. Foster 76 60 0 17 May 2023
Language Model Tokenizers Introduce Unfairness Between Languages Aleksandar Petrov Emanuele La Malfa Philip Torr Adel Bibi 126 113 0 17 May 2023
Epsilon Sampling Rocks: Investigating Sampling Strategies for Minimum Bayes Risk Decoding for Machine Translation Markus Freitag Behrooz Ghorbani Patrick Fernandes 77 44 0 17 May 2023
Sasha: Creative Goal-Oriented Reasoning in Smart Homes with Large Language Models Evan King Haoxiang Yu Sangsu Lee Christine Julien LM&Ro 36 20 0 16 May 2023
AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation Tong Wu Zhihao Fan Xiao Liu Yeyun Gong Yelong Shen ... Juntao Li Zhongyu Wei Jian Guo Nan Duan Weizhu Chen VLM 143 67 0 16 May 2023
Towards Speech Dialogue Translation Mediating Speakers of Different Languages Shuichiro Shimizu Chenhui Chu Sheng Li Sadao Kurohashi Kyoto University 41 2 0 16 May 2023
Beqi: Revitalize the Senegalese Wolof Language with a Robust Spelling Corrector Derguene Mbaye Moussa Diallo 53 3 0 15 May 2023
MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers L. Yu Daniel Simig Colin Flaherty Armen Aghajanyan Luke Zettlemoyer M. Lewis 104 93 0 12 May 2023
Advancing Neural Encoding of Portuguese with Transformer Albertina PT-* João Rodrigues Luís Gomes Joao Silva António Branco Rodrigo Santos Henrique Lopes Cardoso T. Osório 41 44 0 11 May 2023
What is the best recipe for character-level encoder-only modelling? Kris Cao 59 3 0 09 May 2023
Boosting Zero-shot Cross-lingual Retrieval by Training on Artificially Code-Switched Data Robert Litschko Ekaterina Artemova Barbara Plank 70 5 0 09 May 2023
Robust Acoustic and Semantic Contextual Biasing in Neural Transducers for Speech Recognition Xuandi Fu Kanthashree Mysore Sathyendra Ankur Gandhe Jing Liu Grant P. Strimel Ross McGowan Athanasios Mouchtaris 97 16 0 09 May 2023
CharSpan: Utilizing Lexical Similarity to Enable Zero-Shot Machine Translation for Extremely Low-resource Languages Kaushal Kumar Maurya Rahul Kejriwal M. Desarkar Anoop Kunchukuttan 82 1 0 09 May 2023
Fast Conformer with Linearly Scalable Attention for Efficient Speech Recognition Dima Rekesh Nithin Rao Koluguri Samuel Kriman Somshubra Majumdar Vahid Noroozi ... Oleksii Hrinchuk Krishna Puvvada Ankur Kumar Jagadeesh Balam Boris Ginsburg 101 92 0 08 May 2023
Leveraging Synthetic Targets for Machine Translation Sarthak Mittal Oleksii Hrinchuk Oleksii Kuchaiev 60 2 0 07 May 2023