Investigating Masking-based Data Generation in Language Models

16 June 2023

Papers citing "Investigating Masking-based Data Generation in Language Models"

34 / 34 papers shown

Title
NeuroCounterfactuals: Beyond Minimal-Edit Counterfactuals for Richer Data Augmentation Phillip Howard Gadi Singer Vasudev Lal Yejin Choi Swabha Swayamdipta CML 103 25 0 22 Oct 2022
Scaling Instruction-Finetuned Language Models Hyung Won Chung Le Hou Shayne Longpre Barret Zoph Yi Tay ... Jacob Devlin Adam Roberts Denny Zhou Quoc V. Le Jason W. Wei ReLM LRM 196 3,146 0 20 Oct 2022
Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks Xing Wu Chaochen Gao Meng Lin Liangjun Zang Zhongyuan Wang Songlin Hu 57 27 0 28 Feb 2022
Data Augmentation Approaches in Natural Language Processing: A Survey Bohan Li Yutai Hou Wanxiang Che 209 283 0 05 Oct 2021
Better Robustness by More Coverage: Adversarial Training with Mixup Augmentation for Robust Fine-tuning Chenglei Si Zhengyan Zhang Fanchao Qi Zhiyuan Liu Yasheng Wang Qun Liu Maosong Sun AAML SILM 77 69 0 31 Dec 2020
Denoising Pre-Training and Data Augmentation Strategies for Enhanced RDF Verbalization with Transformers Sébastien Montella Betty Fabre Tanguy Urvoy Johannes Heinecke L. Rojas-Barahona 70 14 0 01 Dec 2020
Improving Zero and Few-Shot Abstractive Summarization with Intermediate Fine-tuning and Data Augmentation Alexander R. Fabbri Simeng Han Haoyuan Li Haoran Li Marjan Ghazvininejad Shafiq Joty Dragomir R. Radev Yashar Mehdad 191 97 0 24 Oct 2020
Unsupervised Data Augmentation with Naive Augmentation and without Unlabeled Data David Lowell Brian Howard Zachary Chase Lipton Byron C. Wallace 122 23 0 22 Oct 2020
Augmented SBERT: Data Augmentation Method for Improving Bi-Encoders for Pairwise Sentence Scoring Tasks Nandan Thakur Nils Reimers Johannes Daxenberger Iryna Gurevych 289 249 0 16 Oct 2020
Self-training Improves Pre-training for Natural Language Understanding Jingfei Du Edouard Grave Beliz Gunel Vishrav Chaudhary Onur Çelebi Michael Auli Ves Stoyanov Alexis Conneau VLM LRM SSL 47 164 0 05 Oct 2020
How Effective is Task-Agnostic Data Augmentation for Pretrained Transformers? Shayne Longpre Yu Wang Christopher DuBois ViT 71 84 0 05 Oct 2020
Local Additivity Based Data Augmentation for Semi-supervised NER Jiaao Chen Zhenghui Wang Ran Tian Zichao Yang Diyi Yang 70 58 0 04 Oct 2020
Neural Retrieval for Question Answering with Cross-Attention Supervised Data Augmentation Yinfei Yang Ning Jin Kuo Lin Mandy Guo Daniel Cer 69 32 0 29 Sep 2020
On Data Augmentation for Extreme Multi-label Classification Danqing Zhang Tao Li Hai-Feng Zhang Bing Yin 54 25 0 22 Sep 2020
Text Data Augmentation: Towards better detection of spear-phishing emails Mehdi Regina Maxime Meyer S. Goutal 48 18 0 04 Jul 2020
AdvAug: Robust Adversarial Augmentation for Neural Machine Translation Yong Cheng Lu Jiang Wolfgang Macherey Jacob Eisenstein 73 117 0 21 Jun 2020
MixText: Linguistically-Informed Interpolation of Hidden Space for Semi-Supervised Text Classification Jiaao Chen Zichao Yang Diyi Yang VLM 95 364 0 25 Apr 2020
Fast Cross-domain Data Augmentation through Neural Sentence Editing Guillaume Raille Sandra Djambazovska C. Musat 54 11 0 23 Mar 2020
Not Enough Data? Deep Learning to the Rescue! Ateret Anaby-Tavor Boaz Carmeli Esther Goldbraich Amir Kantor George Kour Segev Shlomov N. Tepper Naama Zwerdling 84 370 0 08 Nov 2019
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 459 20,317 0 23 Oct 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 1.3K 12,301 0 27 Aug 2019
Is BERT Really Robust? A Strong Baseline for Natural Language Attack on Text Classification and Entailment Di Jin Zhijing Jin Qiufeng Wang Peter Szolovits SILM AAML 185 1,086 0 27 Jul 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 674 24,541 0 26 Jul 2019
XLNet: Generalized Autoregressive Pretraining for Language Understanding Zhilin Yang Zihang Dai Yiming Yang J. Carbonell Ruslan Salakhutdinov Quoc V. Le AI4CE 236 8,447 0 19 Jun 2019
Robust Neural Machine Translation with Doubly Adversarial Inputs Yong Cheng Lu Jiang Wolfgang Macherey AAML 68 255 0 06 Jun 2019
Augmenting Data with Mixup for Sentence Classification: An Empirical Study Hongyu Guo Yongyi Mao Richong Zhang 73 235 0 22 May 2019
Unsupervised Data Augmentation for Consistency Training Qizhe Xie Zihang Dai Eduard H. Hovy Minh-Thang Luong Quoc V. Le 137 2,321 0 29 Apr 2019
EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks Jason W. Wei Kai Zou 117 1,962 0 31 Jan 2019
TextBugger: Generating Adversarial Text Against Real-world Applications Jinfeng Li S. Ji Tianyu Du Bo Li Ting Wang SILM AAML 211 743 0 13 Dec 2018
MultiWOZ -- A Large-Scale Multi-Domain Wizard-of-Oz Dataset for Task-Oriented Dialogue Modelling Paweł Budzianowski Tsung-Hsien Wen Bo-Hsiang Tseng I. Casanueva Stefan Ultes Osman Ramadan Milica Gasic 184 1,324 0 29 Sep 2018
SwitchOut: an Efficient Data Augmentation Algorithm for Neural Machine Translation Xinyi Wang Hieu H. Pham Zihang Dai Graham Neubig 67 197 0 22 Aug 2018
Know What You Don't Know: Unanswerable Questions for SQuAD Pranav Rajpurkar Robin Jia Percy Liang RALM ELM 290 2,853 0 11 Jun 2018
mixup: Beyond Empirical Risk Minimization Hongyi Zhang Moustapha Cissé Yann N. Dauphin David Lopez-Paz NoLa 287 9,803 0 25 Oct 2017
SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar Jian Zhang Konstantin Lopyrev Percy Liang RALM 312 8,169 0 16 Jun 2016