RoBERTa: A Robustly Optimized BERT Pretraining Approach

26 July 2019

Luke Zettlemoyer

Papers citing "RoBERTa: A Robustly Optimized BERT Pretraining Approach"

50 / 10,811 papers shown

Title
A Multi-Grained Self-Interpretable Symbolic-Neural Model For Single/Multi-Labeled Text Classification Xiang Hu Xinyu Kong Kewei Tu MILM BDL 67 5 0 06 Mar 2023
WADER at SemEval-2023 Task 9: A Weak-labelling framework for Data augmentation in tExt Regression Tasks Manan Suri Aaryak Garg Divya Chaudhary I. Gorton B. Kumar 49 1 0 05 Mar 2023
Effectiveness of Data Augmentation for Parameter Efficient Tuning with Limited Data Stephen Obadinma Hongyu Guo Xiao-Dan Zhu 72 2 0 05 Mar 2023
Prismer: A Vision-Language Model with Multi-Task Experts Shikun Liu Linxi Fan Edward Johns Zhiding Yu Chaowei Xiao Anima Anandkumar VLM MLLM 142 25 0 04 Mar 2023
ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing Zequn Zeng Hao Zhang Zhengjue Wang Ruiying Lu Dongsheng Wang Bo Chen BDL DiffM 61 33 0 04 Mar 2023
TrojText: Test-time Invisible Textual Trojan Insertion Qiang Lou Ye Liu Bo Feng 142 27 0 03 Mar 2023
Sparsity May Cry: Let Us Fail (Current) Sparse Neural Networks Together! Shiwei Liu Tianlong Chen Zhenyu Zhang Xuxi Chen Tianjin Huang Ajay Jaiswal Zhangyang Wang 87 28 0 03 Mar 2023
Will Affective Computing Emerge from Foundation Models and General AI? A First Evaluation on ChatGPT Mostafa M. Amin Min Zhang Björn W. Schuller AI4MH 94 74 0 03 Mar 2023
PAGE: A Position-Aware Graph-Based Model for Emotion Cause Entailment in Conversation Xiaojie Gu Renze Lou Lin Sun Shangxin Li 432 6 0 03 Mar 2023
Hitachi at SemEval-2023 Task 3: Exploring Cross-lingual Multi-task Strategies for Genre and Framing Detection in Online News Yuta Koreeda Ken-ichi Yokote Hiroaki Ozaki Atsuki Yamaguchi Masaya Tsunokake Yasuhiro Sogawa 59 3 0 03 Mar 2023
NCL: Textual Backdoor Defense Using Noise-augmented Contrastive Learning Shengfang Zhai Qingni Shen Xiaoyi Chen Weilong Wang Cong Li Yuejian Fang Zhonghai Wu AAML 104 10 0 03 Mar 2023
Study of Distractors in Neural Models of Code Md Rafiqul Islam Rabin Aftab Hussain Sahil Suneja Mohammad Amin Alipour AAML 62 6 0 03 Mar 2023
Structure Pretraining and Prompt Tuning for Knowledge Graph Transfer Wen Zhang Yushan Zhu Yin Hua Yuxia Geng Yufen Huang Yajing Xu Wenting Song Hua-zeng Chen 83 27 0 03 Mar 2023
ConTEXTual Net: A Multimodal Vision-Language Model for Segmentation of Pneumothorax Zachary Huemann Xin Tie Junjie Hu Tyler Bradshaw 68 17 0 02 Mar 2023
Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable Transformers Tianlong Chen Zhenyu Zhang Ajay Jaiswal Shiwei Liu Zhangyang Wang MoE 118 50 0 02 Mar 2023
Computational Language Acquisition with Theory of Mind Andy Liu Hao Zhu Emmy Liu Yonatan Bisk Graham Neubig LLMAG AI4CE 80 18 0 02 Mar 2023
Language Variety Identification with True Labels Marcos Zampieri Kai North T. Jauhiainen Mariano Felice N. Kumari N. Nair Y. Bangera 62 25 0 02 Mar 2023
WiCE: Real-World Entailment for Claims in Wikipedia Ryo Kamoi Tanya Goyal Juan Diego Rodriguez Greg Durrett 107 92 0 02 Mar 2023
Document Provenance and Authentication through Authorship Classification Muhammad Tayyab Zamir Muhammad Asif Ayub Jebran Khan Muhammad Jawad Ikram Nasir Ahmad Kashif Ahmad 21 2 0 02 Mar 2023
UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data Generation for Cross-Lingual Learning in Tweet Intimacy Prediction Andrianos Michail Stefanos Konstantinou Simon Clematide 70 21 0 02 Mar 2023
INO at Factify 2: Structure Coherence based Multi-Modal Fact Verification Yinuo Zhang Zhulin Tao Xi Wang Tongyue Wang 82 6 0 02 Mar 2023
Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study Mingxu Tao Yansong Feng Dongyan Zhao CLL KELM 74 10 0 02 Mar 2023
Less is More: Mitigate Spurious Correlations for Open-Domain Dialogue Response Generation Models by Causal Discovery Tao Feng Zhuang Li Gholamreza Haffari CML 104 7 0 02 Mar 2023
Learning to Grow Pretrained Models for Efficient Transformer Training Peihao Wang Yikang Shen Lucas Torroba Hennigen P. Greengard Leonid Karlinsky Rogerio Feris David D. Cox Zhangyang Wang Yoon Kim 75 56 0 02 Mar 2023
Time Series as Images: Vision Transformer for Irregularly Sampled Time Series Zekun Li Shiyang Li Xifeng Yan AI4TS 94 58 0 01 Mar 2023
UDAPDR: Unsupervised Domain Adaptation via LLM Prompting and Distillation of Rerankers Jon Saad-Falcon Omar Khattab Keshav Santhanam Radu Florian M. Franz Salim Roukos Avirup Sil Md Arafat Sultan Christopher Potts 96 45 0 01 Mar 2023
Bootstrapping Parallel Anchors for Relative Representations Irene Cannistraci Luca Moschella Valentino Maiorca Marco Fumero Antonio Norelli Emanuele Rodolà 82 5 0 01 Mar 2023
Cross-Modal Entity Matching for Visually Rich Documents Ritesh Sarkhel Arnab Nandi 61 3 0 01 Mar 2023
Rethinking Efficient Tuning Methods from a Unified Perspective Zeyinzi Jiang Chaojie Mao Ziyuan Huang Yiliang Lv Deli Zhao Jingren Zhou 85 11 0 01 Mar 2023
CoProver: A Recommender System for Proof Construction Eric Yeh Briland Hitaj S. Owre Maena Quemener N. Shankar 108 5 0 01 Mar 2023
Are More Layers Beneficial to Graph Transformers? Haiteng Zhao Shuming Ma Dongdong Zhang Zhi-Hong Deng Furu Wei 72 14 0 01 Mar 2023
AdaSAM: Boosting Sharpness-Aware Minimization with Adaptive Learning Rate and Momentum for Training Deep Neural Networks Hao Sun Li Shen Qihuang Zhong Liang Ding Shi-Yong Chen Jingwei Sun Jing Li Guangzhong Sun Dacheng Tao 98 34 0 01 Mar 2023
Domain-adapted large language models for classifying nuclear medicine reports Zachary Huemann Changhee Lee Junjie Hu Steve Y. Cho Tyler Bradshaw LM&MA VLM MedIm 55 16 0 01 Mar 2023
Competence-Based Analysis of Language Models Adam Davies Jize Jiang Chengxiang Zhai ELM 71 5 0 01 Mar 2023
Deep Learning Methods for Small Molecule Drug Discovery: A Survey Wenhao Hu Yingying Liu Xuanyu Chen Wenhao Chai Hangyue Chen Hongwei Wang Gaoang Wang 127 11 0 01 Mar 2023
How Robust is GPT-3.5 to Predecessors? A Comprehensive Study on Language Understanding Tasks Xuanting Chen Junjie Ye Can Zu Nuo Xu Rui Zheng Minlong Peng Jie Zhou Tao Gui Qi Zhang Xuanjing Huang AI4MH ELM 69 83 0 01 Mar 2023
Frauds Bargain Attack: Generating Adversarial Text Samples via Word Manipulation Process Mingze Ni Zhen-Biao Sun Wei Liu AAML SILM 79 8 0 01 Mar 2023
A Mixed-Methods Approach to Understanding User Trust after Voice Assistant Failures Amanda Baughan Allison Mercurio Ariel Liu Xuezhi Wang Jilin Chen Xiao Ma 82 15 0 01 Mar 2023
Deep learning for COVID-19 topic modelling via Twitter: Alpha, Delta and Omicron Janhavi Lande Arti Pillay Rohitash Chandra 55 9 0 28 Feb 2023
Automatically Classifying Emotions based on Text: A Comparative Exploration of Different Datasets Anna Koufakou Jairo Garciga Adam L. Paul Joseph Morelli Christopher Frank 28 3 0 28 Feb 2023
SMoA: Sparse Mixture of Adapters to Mitigate Multiple Dataset Biases Yanchen Liu Jing Yang Yan Chen Jing Liu Huaqin Wu MoE 91 2 0 28 Feb 2023
HugNLP: A Unified and Comprehensive Library for Natural Language Processing Jiadong Wang Nuo Chen Qiushi Sun Wenkang Huang Chengyu Wang Ming Gao 71 4 0 28 Feb 2023
Goal Driven Discovery of Distributional Differences via Language Descriptions Ruiqi Zhong Peter Zhang Steve Li Jinwoo Ahn Dan Klein Jacob Steinhardt 118 53 0 28 Feb 2023
Weighted Sampling for Masked Language Modeling Linhan Zhang Qian Chen Wen Wang Chong Deng Xin Cao Kongzhang Hao Yuxin Jiang Wen Wang 70 2 0 28 Feb 2023
Language Is Not All You Need: Aligning Perception with Language Models Shaohan Huang Li Dong Wenhui Wang Y. Hao Saksham Singhal ... Johan Bjorck Vishrav Chaudhary Subhojit Som Xia Song Furu Wei VLM LRM MLLM 144 567 0 27 Feb 2023
Full Stack Optimization of Transformer Inference: a Survey Sehoon Kim Coleman Hooper Thanakul Wattanawong Minwoo Kang Ruohan Yan ... Qijing Huang Kurt Keutzer Michael W. Mahoney Y. Shao A. Gholami MQ 165 106 0 27 Feb 2023
How optimal transport can tackle gender biases in multi-class neural-network classifiers for job recommendations? Fanny Jourdan Titon Tshiongo Kaninku Nicholas M. Asher Jean-Michel Loubes Laurent Risser FaML 74 4 0 27 Feb 2023
Hulk: Graph Neural Networks for Optimizing Regionally Distributed Computing Systems Zheng Yuan HU Xue Chaoyun Zhang Yongming Liu GNN AI4CE 39 1 0 27 Feb 2023
Contrastive Video Question Answering via Video Graph Transformer Junbin Xiao Pan Zhou Angela Yao Yicong Li Richang Hong Shuicheng Yan Tat-Seng Chua ViT 115 37 0 27 Feb 2023
TOT: Topology-Aware Optimal Transport For Multimodal Hate Detection Linhao Zhang Li Jin Xian Sun Guangluan Xu Zequn Zhang Xiaoyu Li Nayu Liu Qing Liu Shiyao Yan 83 8 0 27 Feb 2023