RoBERTa: A Robustly Optimized BERT Pretraining Approach

26 July 2019

Luke Zettlemoyer

Papers citing "RoBERTa: A Robustly Optimized BERT Pretraining Approach"

27 / 10,677 papers shown

Title
Revisiting Semantic Representation and Tree Search for Similar Question Retrieval Tonglei Guo Huilin Gao 13 1 0 22 Aug 2019
Align, Mask and Select: A Simple Method for Incorporating Commonsense Knowledge into Language Representation Models Zhiquan Ye Qian Chen Wen Wang Zhenhua Ling 94 68 0 19 Aug 2019
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training Gen Li Nan Duan Yuejian Fang Ming Gong Daxin Jiang Ming Zhou SSL VLM MLLM 216 907 0 16 Aug 2019
Reasoning Over Paragraph Effects in Situations Kevin Lin Oyvind Tafjord Peter Clark Matt Gardner 106 115 0 16 Aug 2019
SenseBERT: Driving Some Sense into BERT Yoav Levine Barak Lenz Or Dagan Ori Ram Dan Padnos Or Sharir Shai Shalev-Shwartz Amnon Shashua Y. Shoham SSL 91 187 0 15 Aug 2019
A Multi-Turn Emotionally Engaging Dialog Model Yubo Xie Ekaterina Svikhnushina P. Pu 69 15 0 15 Aug 2019
StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding Wei Wang Bin Bi Ming Yan Chen Henry Wu Zuyi Bao Jiangnan Xia Liwei Peng Luo Si 84 264 0 13 Aug 2019
On Identifiability in Transformers Gino Brunner Yang Liu Damian Pascual Oliver Richter Massimiliano Ciaramita Roger Wattenhofer ViT 77 189 0 12 Aug 2019
On the Variance of the Adaptive Learning Rate and Beyond Liyuan Liu Haoming Jiang Pengcheng He Weizhu Chen Xiaodong Liu Jianfeng Gao Jiawei Han ODL 312 1,914 0 08 Aug 2019
Semi-supervised Thai Sentence Segmentation Using Local and Distant Word Representations Chanatip Saetia Ekapol Chuangsuwanich Tawunrat Chalothorn P. Vateekul 72 5 0 04 Aug 2019
Leveraging Pre-trained Checkpoints for Sequence Generation Tasks S. Rothe Shashi Narayan Aliaksei Severyn SILM 146 437 0 29 Jul 2019
WinoGrande: An Adversarial Winograd Schema Challenge at Scale Keisuke Sakaguchi Ronan Le Bras Chandra Bhagavatula Yejin Choi 89 223 0 24 Jul 2019
SpanBERT: Improving Pre-training by Representing and Predicting Spans Mandar Joshi Danqi Chen Yinhan Liu Daniel S. Weld Luke Zettlemoyer Omer Levy 179 1,974 0 24 Jul 2019
Generating Sentiment-Preserving Fake Online Reviews Using Neural Language Models and Their Human- and Machine-based Detection David Ifeoluwa Adelani H. Mai Fuming Fang H. Nguyen Junichi Yamagishi Isao Echizen DeLMO 114 122 0 22 Jul 2019
BERTphone: Phonetically-Aware Encoder Representations for Utterance-Level Speaker and Language Recognition Shaoshi Ling Julian Salazar Yuzong Liu Katrin Kirchhoff SSL 93 28 0 30 Jun 2019
XLNet: Generalized Autoregressive Pretraining for Language Understanding Zhilin Yang Zihang Dai Yiming Yang J. Carbonell Ruslan Salakhutdinov Quoc V. Le AI4CE 240 8,456 0 19 Jun 2019
Real or Fake? Learning to Discriminate Machine from Human Generated Text A. Bakhtin Sam Gross Myle Ott Yuntian Deng MarcÁurelio Ranzato Arthur Szlam DeLMO 101 173 0 07 Jun 2019
Better Long-Range Dependency By Bootstrapping A Mutual Information Regularizer Yanshuai Cao Peng Xu 19 2 0 28 May 2019
Survey on Evaluation Methods for Dialogue Systems Jan Deriu Álvaro Rodrigo Arantxa Otegi Guillermo Echegoyen S. Rosset Eneko Agirre Mark Cieliebak 116 284 0 10 May 2019
Taming Pretrained Transformers for Extreme Multi-label Text Classification Wei-Cheng Chang Hsiang-Fu Yu Kai Zhong Yiming Yang Inderjit Dhillon 75 20 0 07 May 2019
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 418 5,886 0 21 Apr 2019
An Attentive Survey of Attention Models S. Chaudhari Varun Mithal Gungor Polatkan R. Ramanath 192 664 0 05 Apr 2019
Recent Advances in Natural Language Inference: A Survey of Benchmarks, Resources, and Approaches Shane Storks Qiaozi Gao J. Chai 96 132 0 02 Apr 2019
Contextual Word Representations: A Contextual Introduction Noah A. Smith 64 34 0 15 Feb 2019
Sentence transition matrix: An efficient approach that preserves sentence semantics Myeongjun Jang Pilsung Kang 21 2 0 16 Jan 2019
On the Benefit of Width for Neural Networks: Disappearance of Bad Basins Dawei Li Tian Ding Ruoyu Sun 114 38 0 28 Dec 2018
Neural Abstractive Text Summarization with Sequence-to-Sequence Models Tian Shi Yaser Keneshloo Naren Ramakrishnan Chandan K. Reddy 127 234 0 05 Dec 2018