v1v2 (latest)

XLNet: Generalized Autoregressive Pretraining for Language Understanding

19 June 2019

Papers citing "XLNet: Generalized Autoregressive Pretraining for Language Understanding"

50 / 3,524 papers shown

Title
Attention Mechanisms in Computer Vision: A Survey Meng-Hao Guo Tianhan Xu Jiangjiang Liu Zheng-Ning Liu Peng-Tao Jiang Tai-Jiang Mu Song-Hai Zhang Ralph Robert Martin Ming-Ming Cheng Shimin Hu 146 1,746 0 15 Nov 2021
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 207 356 0 11 Nov 2021
Cross-language Information Retrieval P. Galuscáková Douglas W. Oard Suraj Nair 75 0 0 10 Nov 2021
ICDAR 2021 Competition on Document VisualQuestion Answering Rubèn Pérez Tito Minesh Mathew C. V. Jawahar Ernest Valveny Dimosthenis Karatzas 86 23 0 10 Nov 2021
Are Transformers More Robust Than CNNs? Yutong Bai Jieru Mei Alan Yuille Cihang Xie ViT AAML 266 270 0 10 Nov 2021
Sliced Recursive Transformer Zhiqiang Shen Zechun Liu Eric P. Xing ViT 61 27 0 09 Nov 2021
FPM: A Collection of Large-scale Foundation Pre-trained Language Models Dezhou Shen AI4CE 44 0 0 09 Nov 2021
A Survey on Green Deep Learning Jingjing Xu Wangchunshu Zhou Zhiyi Fu Hao Zhou Lei Li VLM 203 84 0 08 Nov 2021
Personalized Benchmarking with the Ludwig Benchmarking Toolkit A. Narayan Piero Molino Karan Goel Willie Neiswanger Christopher Ré 76 11 0 08 Nov 2021
NLP From Scratch Without Large-Scale Pretraining: A Simple and Efficient Framework Xingcheng Yao Yanan Zheng Xiaocong Yang Zhilin Yang 86 46 0 07 Nov 2021
Focusing on Potential Named Entities During Active Label Acquisition Ali Osman Berk Şapcı Oznur Tastan Reyyan Yeniterzi 65 2 0 06 Nov 2021
IBERT: Idiom Cloze-style reading comprehension with Attention Ruiyang Qin Haozheng Luo Zheheng Fan Ziang Ren AIMat 73 9 0 05 Nov 2021
Leveraging Sentiment Analysis Knowledge to Solve Emotion Detection Tasks Maude Nguyen-The Guillaume-Alexandre Bilodeau Jan Rockemann 64 4 0 05 Nov 2021
Disengagement Cause-and-Effect Relationships Extraction Using an NLP Pipeline Yang Zhang X. J. Yang Feng Zhou 66 14 0 05 Nov 2021
A Syntax-Guided Grammatical Error Correction Model with Dependency Tree Correction Zhaohong Wan Xiaojun Wan 73 6 0 05 Nov 2021
An Empirical Study of the Effectiveness of an Ensemble of Stand-alone Sentiment Detection Tools for Software Engineering Datasets Gias Uddin Yann-Gaël Guéhénuc Foutse Khomh C. Roy 45 8 0 04 Nov 2021
Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of Language Models Wei Ping Chejian Xu Shuohang Wang Zhe Gan Yu Cheng Jianfeng Gao Ahmed Hassan Awadallah Yangqiu Song VLM ELM AAML 85 227 0 04 Nov 2021
CoreLM: Coreference-aware Language Model Fine-Tuning Nikolaos Stylianou I. Vlahavas 73 2 0 04 Nov 2021
Diverse Distributions of Self-Supervised Tasks for Meta-Learning in NLP Trapit Bansal K. Gunasekaran Tong Wang Tsendsuren Munkhdalai Andrew McCallum SSL OOD 101 20 0 02 Nov 2021
Recent Advances in Natural Language Processing via Large Pre-Trained Language Models: A Survey Bonan Min Hayley L Ross Elior Sulem Amir Pouran Ben Veyseh Thien Huu Nguyen Oscar Sainz Eneko Agirre Ilana Heinz Dan Roth LM&MA VLM AI4CE 200 1,103 0 01 Nov 2021
Introspective Distillation for Robust Question Answering Yulei Niu Hanwang Zhang 94 60 0 01 Nov 2021
With a Little Help from my Temporal Context: Multimodal Egocentric Action Recognition Evangelos Kazakos Jaesung Huh Arsha Nagrani Andrew Zisserman Dima Damen EgoV 125 46 0 01 Nov 2021
DSC-IITISM at FinCausal 2021: Combining POS tagging with Attention-based Contextual Representations for Identifying Causal Relationships in Financial Documents Gunjan Haldar Aman Mittal Pradyumna Gupta 39 1 0 31 Oct 2021
EventNarrative: A large-scale Event-centric Dataset for Knowledge Graph-to-Text Generation Anthony Colas A. Sadeghian Yue Wang D. Wang 83 22 0 30 Oct 2021
PatchFormer: An Efficient Point Transformer with Patch Attention Zhang Cheng Haocheng Wan Xinyi Shen Zizhao Wu 3DPC 130 69 0 30 Oct 2021
Backdoor Pre-trained Models Can Transfer to All Lujia Shen S. Ji Xuhong Zhang Jinfeng Li Jing Chen Jie Shi Chengfang Fang Jianwei Yin Ting Wang AAML SILM 104 132 0 30 Oct 2021
DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language Models Xuxi Chen Tianlong Chen Weizhu Chen Ahmed Hassan Awadallah Zhangyang Wang Yu Cheng MoE ALM 63 10 0 30 Oct 2021
Node Feature Extraction by Self-Supervised Multi-scale Neighborhood Prediction Eli Chien Wei-Cheng Chang Cho-Jui Hsieh Hsiang-Fu Yu Jiong Zhang O. Milenkovic Inderjit S Dhillon 243 140 0 29 Oct 2021
What makes us curious? analysis of a corpus of open-domain questions Zhaozhen Xu Amelia Howarth Nicole L. Briggs N. Cristianini 38 2 0 28 Oct 2021
Scatterbrain: Unifying Sparse and Low-rank Attention Approximation Beidi Chen Tri Dao Eric Winsor Zhao Song Atri Rudra Christopher Ré 88 134 0 28 Oct 2021
Bridge the Gap Between CV and NLP! A Gradient-based Textual Adversarial Attack Framework Lifan Yuan Yichi Zhang Yangyi Chen Wei Wei AAML 126 34 0 28 Oct 2021
Deciphering the Language of Nature: A transformer-based language model for deleterious mutations in proteins Theodore Jiang Li Fang Kai Wang MedIm 82 17 0 27 Oct 2021
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing Sanyuan Chen Chengyi Wang Zhengyang Chen Yu-Huan Wu Shujie Liu ... Yao Qian Jian Wu Micheal Zeng Xiangzhan Yu Furu Wei SSL 319 1,913 0 26 Oct 2021
s2s-ft: Fine-Tuning Pretrained Transformer Encoders for Sequence-to-Sequence Learning Hangbo Bao Li Dong Wenhui Wang Nan Yang Furu Wei 61 11 0 26 Oct 2021
DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction Hao Feng Yuechen Wang Wen-gang Zhou Jiajun Deng Houqiang Li ViT 117 60 0 25 Oct 2021
Zero-Shot Dialogue Disentanglement by Self-Supervised Entangled Response Selection Yoonhyuk Choi Alexander I. Rudnicky 33 3 0 25 Oct 2021
Alignment Attention by Matching Key and Query Distributions Shujian Zhang Xinjie Fan Huangjie Zheng Korawat Tanwisuth Mingyuan Zhou OOD 124 10 0 25 Oct 2021
Improved Goal Oriented Dialogue via Utterance Generation and Look Ahead Hong Huang Boaz Carmeli Ateret Anaby-Tavor 77 2 0 24 Oct 2021
ListReader: Extracting List-form Answers for Opinion Questions Peng Cui Dongyao Hu Le Hu RALM 30 2 0 22 Oct 2021
Multimodal Learning using Optimal Transport for Sarcasm and Humor Detection Shraman Pramanick A. Roy Vishal M. Patel 82 58 0 21 Oct 2021
Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations in Instructional Videos Reuben Tan Bryan A. Plummer Kate Saenko Hailin Jin Bryan C. Russell SSL 94 27 0 20 Oct 2021
Overview of the 2021 Key Point Analysis Shared Task Roni Friedman Lena Dankin Yufang Hou R. Aharonov Yoav Katz Noam Slonim 63 27 0 20 Oct 2021
Ranking and Tuning Pre-trained Models: A New Paradigm for Exploiting Model Hubs Kaichao You Yong Liu Ziyang Zhang Jianmin Wang Michael I. Jordan Mingsheng Long 233 34 0 20 Oct 2021
Interpreting Deep Learning Models in Natural Language Processing: A Review Xiaofei Sun Diyi Yang Xiaoya Li Tianwei Zhang Yuxian Meng Han Qiu Guoyin Wang Eduard H. Hovy Jiwei Li 99 47 0 20 Oct 2021
Discontinuous Grammar as a Foreign Language Daniel Fernández-González Carlos Gómez-Rodríguez 97 9 0 20 Oct 2021
Empowering General-purpose User Representation with Full-life Cycle Behavior Modeling Bei Yang Jie Gu Ke Liu Xiaoxiao Xu Renjun Xu Qinghui Sun Hong Liu 96 5 0 20 Oct 2021
SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training Ankur Bapna Yu-An Chung Na Wu Anmol Gulati Ye Jia J. Clark Melvin Johnson Jason Riesa Alexis Conneau Yu Zhang VLM 139 96 0 20 Oct 2021
LMSOC: An Approach for Socially Sensitive Pretraining Vivek Kulkarni Shubhanshu Mishra A. Haghighi 111 13 0 20 Oct 2021
Improved Multilingual Language Model Pretraining for Social Media Text via Translation Pair Prediction Shubhanshu Mishra A. Haghighi VLM 52 4 0 20 Oct 2021
The CoRa Tensor Compiler: Compilation for Ragged Tensors with Minimal Padding Pratik Fegade Tianqi Chen Phillip B. Gibbons T. Mowry 87 29 0 19 Oct 2021