RoBERTa: A Robustly Optimized BERT Pretraining Approach

26 July 2019

Luke Zettlemoyer

Papers citing "RoBERTa: A Robustly Optimized BERT Pretraining Approach"

50 / 10,783 papers shown

Title
CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model Shuai Zhao Xiaohan Wang Linchao Zhu Yezhou Yang CLIP VLM 131 27 0 23 May 2023
Multi-Granularity Prompts for Topic Shift Detection in Dialogue Jian-Dong Lin Yaxin Fan Xiaomin Chu Peifeng Li Qiaoming Zhu 77 5 0 23 May 2023
Towards A Unified View of Sparse Feed-Forward Network in Pretraining Large Language Model Leo Liu Tim Dettmers Xi Lin Ves Stoyanov Xian Li MoE 50 10 0 23 May 2023
NeuralMatrix: Compute the Entire Neural Networks with Linear Matrix Operations for Efficient Inference Ruiqi Sun Siwei Ye Jie Zhao Xin He Yiran Li An Zou 92 0 0 23 May 2023
DetectLLM: Leveraging Log Rank Information for Zero-Shot Detection of Machine-Generated Text Jinyan Su Terry Yue Zhuo Di Wang Preslav Nakov DeLMO 128 142 0 23 May 2023
Can Large Language Models Capture Dissenting Human Voices? Noah Lee Na Min An James Thorne ALM 106 32 0 23 May 2023
Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data Augmentation Dan Luo Chen Zhang Jiahui Xu Bin Wang Yiming Chen Yan Zhang Haizhou Li VLM 51 0 0 23 May 2023
VisorGPT: Learning Visual Prior via Generative Pre-Training Jinheng Xie Kai Ye Yudong Li Yuexiang Li Kevin Qinghong Lin Yefeng Zheng Linlin Shen Mike Zheng Shou ViT 340 8 0 23 May 2023
TransCoder: Towards Unified Transferable Code Representation Learning Inspired by Human Skills Qiushi Sun Nuo Chen Jiadong Wang Xiang Li Ming Gao 79 8 0 23 May 2023
CombLM: Adapting Black-Box Language Models through Small Fine-Tuned Models Aitor Ormazabal Mikel Artetxe Eneko Agirre 94 21 0 23 May 2023
PIEClass: Weakly-Supervised Text Classification with Prompting and Noise-Robust Iterative Ensemble Training Yunyi Zhang Minhao Jiang Yu Meng Yu Zhang Jiawei Han NoLa 97 14 0 23 May 2023
Exploring Large Language Models for Classical Philology Frederick Riemenschneider Anette Frank 63 16 0 23 May 2023
Few-Shot Data Synthesis for Open Domain Multi-Hop Question Answering Mingda Chen Xilun Chen Wen-tau Yih SyDa 60 8 0 23 May 2023
Towards Legally Enforceable Hate Speech Detection for Public Forums Chunyan Luo R. Bhambhoria Xiao-Dan Zhu Samuel Dahan AILaw 71 5 0 23 May 2023
Polyglot or Not? Measuring Multilingual Encyclopedic Knowledge in Foundation Models Tim Schott Daniel Furman Shreshta Bhat ELM 76 4 0 23 May 2023
On the Risk of Misinformation Pollution with Large Language Models Yikang Pan Liangming Pan Wenhu Chen Preslav Nakov Min-Yen Kan Wenjie Wang DeLMO 260 127 0 23 May 2023
Prompt-Based Monte-Carlo Tree Search for Goal-Oriented Dialogue Policy Planning Xiao Yu Maximillian Chen Zhou Yu LLMAG LM&Ro 122 43 0 23 May 2023
Understanding and Mitigating Spurious Correlations in Text Classification with Neighborhood Analysis Oscar Chew Hsuan-Tien Lin Kai-Wei Chang Kuan-Hao Huang 88 6 0 23 May 2023
Regex-augmented Domain Transfer Topic Classification based on a Pre-trained Language Model: An application in Financial Domain Vanessa Liao Syed Shariyar Murtaza Yifan Nie Jimmy J. Lin 52 0 0 23 May 2023
A Dive into SAM Prior in Image Restoration Zeyu Xiao Jiawang Bai Zhihe Lu Zhiwei Xiong 71 17 0 23 May 2023
SPEECH: Structured Prediction with Energy-Based Event-Centric Hyperspheres Shumin Deng Shengyu Mao Ningyu Zhang Bryan Hooi 56 5 0 23 May 2023
ReSee: Responding through Seeing Fine-grained Visual Knowledge in Open-domain Dialogue Haoqin Tu Yitong Li Fei Mi Zhongliang Yang 77 5 0 23 May 2023
Understanding Programs by Exploiting (Fuzzing) Test Cases Jianyu Zhao Yuyang Rong Yiwen Guo Yifeng He Hao Chen 114 17 0 23 May 2023
Query Structure Modeling for Inductive Logical Reasoning Over Knowledge Graphs Siyuan Wang Zhongyu Wei Meng Han Zhihao Fan Haijun Shan Qi Zhang Xuanjing Huang 61 6 0 23 May 2023
How Fragile is Relation Extraction under Entity Replacements? Yiwei Wang Bryan Hooi Fei Wang Yujun Cai Yuxuan Liang Wenxuan Zhou Jing Tang Manjuan Duan Muhao Chen 127 6 0 22 May 2023
Improving Classifier Robustness through Active Generation of Pairwise Counterfactuals Ananth Balashankar Xuezhi Wang Yao Qin Ben Packer Nithum Thain Jilin Chen Ed H. Chi Alex Beutel 65 0 0 22 May 2023
REFinD: Relation Extraction Financial Dataset Simerjot Kaur Charese Smiley Akshat Gupta Joy Prakash Sain Dongsheng Wang S. Siddagangappa Toyin Aguda Sameena Shah 73 16 0 22 May 2023
CEO: Corpus-based Open-Domain Event Ontology Induction Nan Xu Hongming Zhang Jianshu Chen 136 2 0 22 May 2023
Learning Emotion Representations from Verbal and Nonverbal Communication Sitao Zhang Yimu Pan Jianmin Wang VLM 135 24 0 22 May 2023
Learning Easily Updated General Purpose Text Representations with Adaptable Task-Specific Prefixes Kuan-Hao Huang L Tan Rui Hou Sinong Wang Amjad Almahairi Ruty Rinott AI4CE 78 0 0 22 May 2023
Type-to-Track: Retrieve Any Object via Prompt-based Tracking Pha Nguyen Kha Gia Quach Kris Kitani Khoa Luu 97 20 0 22 May 2023
Syntactic Knowledge via Graph Attention with BERT in Machine Translation Yuqian Dai S. Sharoff M. Kamps 34 1 0 22 May 2023
Element-aware Summarization with Large Language Models: Expert-aligned Evaluation and Chain-of-Thought Method Yiming Wang Zhuosheng Zhang Rui Wang 117 88 0 22 May 2023
DADA: Dialect Adaptation via Dynamic Aggregation of Linguistic Rules Yanchen Liu William B. Held Diyi Yang 148 11 0 22 May 2023
Can LLMs facilitate interpretation of pre-trained language models? Basel Mousi Nadir Durrani Fahim Dalvi 93 13 0 22 May 2023
Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching Yang Liu Muzhi Zhu Hengtao Li Hao Chen Xinlong Wang Chunhua Shen VLM MLLM 181 90 0 22 May 2023
Language-Agnostic Bias Detection in Language Models with Bias Probing Abdullatif Köksal Omer F. Yalcin Ahmet Akbiyik M. Kilavuz Anna Korhonen Hinrich Schütze 103 2 0 22 May 2023
Investigating the Role of Feed-Forward Networks in Transformers Using Parallel Attention and Feed-Forward Net Design Shashank Sonkar Richard G. Baraniuk 57 4 0 22 May 2023
VideoLLM: Modeling Video Sequence with Large Language Models Guo Chen Yin-Dong Zheng Jiahao Wang Jilan Xu Yifei Huang ... Yi Wang Yali Wang Yu Qiao Tong Lu Limin Wang MLLM 148 84 0 22 May 2023
Is Fine-tuning Needed? Pre-trained Language Models Are Near Perfect for Out-of-Domain Detection Rheeya Uppaal Junjie Hu Yixuan Li OODD 207 36 0 22 May 2023
Let GPT be a Math Tutor: Teaching Math Word Problem Solvers with Customized Exercise Generation Zhenwen Liang Wenhao Yu Tanmay Rajpurohit Peter Clark Xiangliang Zhang Ashwin Kaylan 70 38 0 22 May 2023
TaskWeb: Selecting Better Source Tasks for Multi-task NLP Joongwon Kim Akari Asai Gabriel Ilharco Hannaneh Hajishirzi 87 12 0 22 May 2023
MAGE: Machine-generated Text Detection in the Wild Yafu Li Qintong Li Leyang Cui Wei Bi Zhilin Wang Longyue Wang Linyi Yang Shuming Shi Yue Zhang DeLMO 129 58 0 22 May 2023
Multi-Task Instruction Tuning of LLaMa for Specific Scenarios: A Preliminary Study on Writing Assistance Yue Zhang Leyang Cui Deng Cai Xinting Huang Tao Fang Wei Bi ALM 94 36 0 22 May 2023
SimCSE++: Improving Contrastive Learning for Sentence Embeddings from Two Perspectives Jiahao Xu Wei Shao Lihu Chen Lemao Liu 56 18 0 22 May 2023
Teaching Probabilistic Logical Reasoning to Transformers Aliakbar Nafar Kristen Brent Venable Parisa Kordjamshidi ReLM LRM 85 4 0 22 May 2023
A Pretrainer's Guide to Training Data: Measuring the Effects of Data Age, Domain Coverage, Quality, & Toxicity Shayne Longpre Gregory Yauney Emily Reif Katherine Lee Adam Roberts ... Denny Zhou Jason W. Wei Kevin Robinson David M. Mimno Daphne Ippolito 117 168 0 22 May 2023
Extrapolating Multilingual Understanding Models as Multilingual Generators Bohong Wu Fei Yuan Hai Zhao Lei Li Jingjing Xu AI4CE 80 2 0 22 May 2023
Partial Annotation Learning for Biomedical Entity Recognition Liangping Ding Giovanni Colavizza Zhixiong Zhang 28 2 0 22 May 2023
Should We Attend More or Less? Modulating Attention for Fairness A. Zayed Gonçalo Mordido Samira Shabanian Sarath Chandar 83 10 0 22 May 2023