v1v2 (latest)

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

11 October 2018

Papers citing "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding"

50 / 23,688 papers shown

Title
Unsupervised Learning of Visual 3D Keypoints for Control Boyuan Chen Pieter Abbeel Deepak Pathak 3DPC SSL 92 40 0 14 Jun 2021
Delving Deep into the Generalization of Vision Transformers under Distribution Shifts Chongzhi Zhang Mingyuan Zhang Shanghang Zhang Daisheng Jin Qiang-feng Zhou Zhongang Cai Haiyu Zhao Xianglong Liu Ziwei Liu 74 106 0 14 Jun 2021
Named Entity Normalization Model Using Edge Weight Updating Neural Network: Assimilation Between Knowledge-Driven Graph and Data-Driven Graph Sung Hwan Jeon Sungzoon Cho MedIm 52 3 0 14 Jun 2021
Dataset of Propaganda Techniques of the State-Sponsored Information Operation of the People's Republic of China Rong-Ching Chang Chun-Ming Lai Kai-Lai Chang Chu-Hsing Lin 28 13 0 14 Jun 2021
Evaluating Various Tokenizers for Arabic Text Classification Zaid Alyafeai Maged S. Al-Shaibani Mustafa Ghaleb Irfan Ahmad 84 44 0 14 Jun 2021
Modeling Profanity and Hate Speech in Social Media with Semantic Subspaces Vanessa Hahn Dana Ruiter Thomas Kleinbauer Dietrich Klakow 55 7 0 14 Jun 2021
An Empirical Survey of Data Augmentation for Limited Data Learning in NLP Jiaao Chen Derek Tam Colin Raffel Joey Tianyi Zhou Diyi Yang 120 178 0 14 Jun 2021
Conference proceedings KI4Industry AI for SMEs -- The online congress for practical entry into AI for SMEs Michael Arnemann Per Olof Beckemeier Thomas Bertram Michael Eder Maximilian Erschig ... Tim Schanz Philip Scherer Janine Schwienke Martin Simon Robin Tenscher-Philipp 27 0 0 14 Jun 2021
Training Graph Neural Networks with 1000 Layers Guohao Li Matthias Muller Guohao Li V. Koltun GNN AI4CE 103 243 0 14 Jun 2021
HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units Wei-Ning Hsu Benjamin Bolte Yao-Hung Hubert Tsai Kushal Lakhotia Ruslan Salakhutdinov Abdel-rahman Mohamed SSL 202 3,017 0 14 Jun 2021
Probing Pre-Trained Language Models for Disease Knowledge Israa Alghanmi Luis Espinosa-Anke Steven Schockaert LM&MA ELM 84 13 0 14 Jun 2021
Attention-based Domain Adaptation for Single Stage Detectors Vidit Vidit Mathieu Salzmann ObjD 90 13 0 14 Jun 2021
Cascaded Span Extraction and Response Generation for Document-Grounded Dialog Nico Daheim David Thulke Christian Dugast Hermann Ney 66 12 0 14 Jun 2021
GitTables: A Large-Scale Corpus of Relational Tables Madelon Hulsebos cCaugatay Demiralp Paul T. Groth LMTD 138 89 0 14 Jun 2021
Unified Interpretation of Softmax Cross-Entropy and Negative Sampling: With Case Study for Knowledge Graph Embedding Hidetaka Kamigaito Katsuhiko Hayashi 81 11 0 14 Jun 2021
Certification of embedded systems based on Machine Learning: A survey Guillaume Vidot Christophe Gabreau I. Ober Iulian Ober 51 12 0 14 Jun 2021
Straight to the Gradient: Learning to Use Novel Tokens for Neural Text Generation Xiang Lin Simeng Han Shafiq Joty 55 25 0 14 Jun 2021
SAS: Self-Augmentation Strategy for Language Model Pre-training Yifei Xu Jingqiao Zhang Ru He Liangzhu Ge Chao Yang Cheng Yang Ying Wu 59 1 0 14 Jun 2021
Pre-Trained Models: Past, Present and Future Xu Han Zhengyan Zhang Ning Ding Yuxian Gu Xiao Liu ... Jie Tang Ji-Rong Wen Jinhui Yuan Wayne Xin Zhao Jun Zhu AIFin MQ AI4MH 179 865 0 14 Jun 2021
Why Can You Lay Off Heads? Investigating How BERT Heads Transfer Ting-Rui Chiang Yun-Nung Chen 38 0 0 14 Jun 2021
Schema-Guided Paradigm for Zero-Shot Dialog Shikib Mehri M. Eskénazi 66 17 0 13 Jun 2021
Thinking Like Transformers Gail Weiss Yoav Goldberg Eran Yahav AI4CE 131 135 0 13 Jun 2021
Exploring and Distilling Posterior and Prior Knowledge for Radiology Report Generation Fenglin Liu Xian Wu Shen Ge Wei Fan Yuexian Zou MedIm 120 262 0 13 Jun 2021
SASICM A Multi-Task Benchmark For Subtext Recognition Hua Yan Feng Han Junyi An Weikang Xiao Jian Zhao S. Furao 37 1 0 13 Jun 2021
Common Sense Beyond English: Evaluating and Improving Multilingual Language Models for Commonsense Reasoning Bill Yuchen Lin Seyeon Lee Xiaoyang Qiao Xiang Ren ReLM LRM 80 63 0 13 Jun 2021
Cross-utterance Reranking Models with BERT and Graph Convolutional Networks for Conversational Speech Recognition Shih-Hsuan Chiu Tien-Hong Lo Fu-An Chao Berlin Chen BDL 105 10 0 13 Jun 2021
Memory-efficient Transformers via Top- $k$ Attention Ankit Gupta Guy Dar Shaya Goodman David Ciprut Jonathan Berant MQ 98 60 0 13 Jun 2021
Don't Rule Out Monolingual Speakers: A Method For Crowdsourcing Machine Translation Data Rajat Bhatnagar Ananya Ganesh Katharina Kann 46 2 0 12 Jun 2021
Can Transformer Language Models Predict Psychometric Properties? Antonio Laverghetta Animesh Nighojkar Jamshidbek Mirzakhalov John Licato LM&MA 71 14 0 12 Jun 2021
Evaluating Entity Disambiguation and the Role of Popularity in Retrieval-Based NLP Anthony Chen Pallavi Gudipati Shayne Longpre Xiao Ling Sameer Singh 87 40 0 12 Jun 2021
A Pseudo Label-wise Attention Network for Automatic ICD Coding Yifan Wu Min Zeng Ying Yu Min Li 63 12 0 12 Jun 2021
D2C: Diffusion-Denoising Models for Few-shot Conditional Generation Abhishek Sinha Jiaming Song Chenlin Meng Stefano Ermon VLM DiffM 140 121 0 12 Jun 2021
Entropy-based Logic Explanations of Neural Networks Pietro Barbiero Gabriele Ciravegna Francesco Giannini Pietro Lio Marco Gori S. Melacci FAtt XAI 101 80 0 12 Jun 2021
Exploiting Parallel Corpora to Improve Multilingual Embedding based Document and Sentence Alignment Dilan Sachintha Lakmali Piyarathna Charith Rajitha Surangika Ranathunga 63 3 0 12 Jun 2021
Every Bite Is an Experience: Key Point Analysis of Business Reviews Roy Bar-Haim Lilach Eden Yoav Kantor Roni Friedman Noam Slonim 45 20 0 12 Jun 2021
A Sentence-level Hierarchical BERT Model for Document Classification with Limited Labelled Data Jinghui Lu M. Henchion Ivan Bacher Brian Mac Namee VLM 62 22 0 12 Jun 2021
Improving Unsupervised Dialogue Topic Segmentation with Utterance-Pair Coherence Scoring Linzi Xing Giuseppe Carenini 75 43 0 12 Jun 2021
Explaining the Deep Natural Language Processing by Mining Textual Interpretable Features F. Ventura Salvatore Greco D. Apiletti Tania Cerquitelli 47 1 0 12 Jun 2021
Neural Combinatory Constituency Parsing Zhousi Chen Longtu Zhang Aizhan Imankulova Mamoru Komachi 77 2 0 12 Jun 2021
Assessing Multilingual Fairness in Pre-trained Multimodal Representations Jialu Wang Yang Liu Xinze Wang EGVM 104 37 0 12 Jun 2021
Leveraging Pre-trained Language Model for Speech Sentiment Analysis Suwon Shon Pablo Brusco Jing Pan Kyu Jeong Han Shinji Watanabe 61 17 0 11 Jun 2021
Visualization Techniques to Enhance Automated Event Extraction Sophia Henn Abigail Sticha Tim Burley E. Verdeja Paul Brenner 31 2 0 11 Jun 2021
Scaling Laws for Acoustic Models J. Droppo Oguz H. Elibol 67 23 0 11 Jun 2021
HR-NAS: Searching Efficient High-Resolution Neural Architectures with Lightweight Transformers Mingyu Ding Xiaochen Lian Linjie Yang Peng Wang Xiaojie Jin Zhiwu Lu Ping Luo ViT 116 61 0 11 Jun 2021
Robust Knowledge Graph Completion with Stacked Convolutions and a Student Re-Ranking Network Justin Lovelace Denis R. Newman-Griffis Shikhar Vashishth J. Lehman Carolyn Rose OffRL 73 35 0 11 Jun 2021
N-Best ASR Transformer: Enhancing SLU Performance using Multiple ASR Hypotheses Karthik Ganesan P. Bamdev Jaivarsan B Amresh Venugopal A. Tushar 56 19 0 11 Jun 2021
Topological Detection of Trojaned Neural Networks Songzhu Zheng Yikai Zhang H. Wagner Mayank Goswami Chao Chen AAML 87 42 0 11 Jun 2021
Semi-Supervised and Unsupervised Sense Annotation via Translations B. Hauer Grzegorz Kondrak Yixing Luan Arnob Mallik Lili Mou 33 7 0 11 Jun 2021
Neural Symbolic Regression that Scales Luca Biggio Tommaso Bendinelli Alexander Neitz Aurelien Lucchi Giambattista Parascandolo 107 180 0 11 Jun 2021
What Can Knowledge Bring to Machine Learning? -- A Survey of Low-shot Learning for Structured Data Yang Hu Adriane P. Chapman Guihua Wen Dame Wendy Hall 100 25 0 11 Jun 2021