v1v2v3v4v5v6 (latest)

ALBERT: A Lite BERT for Self-supervised Learning of Language Representations

26 September 2019

ArXiv (abs)PDF HTML Github (3271★)

Papers citing "ALBERT: A Lite BERT for Self-supervised Learning of Language Representations"

50 / 2,935 papers shown

Title
Dive into Big Model Training Qinghua Liu Yuxiang Jiang MoMe AI4CE LRM 41 3 0 25 Jul 2022
Multi-Level Fine-Tuning, Data Augmentation, and Few-Shot Learning for Specialized Cyber Threat Intelligence Markus Bayer Tobias Frey Christian A. Reuter AAML 61 17 0 22 Jul 2022
Decoupled Adversarial Contrastive Learning for Self-supervised Adversarial Robustness Chaoning Zhang Kang Zhang Chenshuang Zhang Axi Niu Jiu Feng Chang D. Yoo In So Kweon SSL 96 25 0 22 Jul 2022
Efficient model compression with Random Operation Access Specific Tile (ROAST) hashing Aditya Desai K. Zhou Anshumali Shrivastava 43 1 0 21 Jul 2022
Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling? Yi Tay Mostafa Dehghani Samira Abnar Hyung Won Chung W. Fedus J. Rao Sharan Narang Vinh Q. Tran Dani Yogatama Donald Metzler AI4CE 125 107 0 21 Jul 2022
SPIN: An Empirical Evaluation on Sharing Parameters of Isotropic Networks Chien-Yu Lin Anish K. Prabhu Thomas Merth Sachin Mehta Anurag Ranjan Maxwell Horton Mohammad Rastegari 55 2 0 21 Jul 2022
ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network Nikolaos Gkalelis Dimitrios Daskalakis Vasileios Mezaris 53 10 0 20 Jul 2022
Revealing Secrets From Pre-trained Models Mujahid Al Rafi Yuan Feng Hyeran Jeon 49 0 0 19 Jul 2022
On the Usability of Transformers-based models for a French Question-Answering task Oralie Cattan Christophe Servan Sophie Rosset 31 15 0 19 Jul 2022
TaDaa: real time Ticket Assignment Deep learning Auto Advisor for customer support, help desk, and issue ticketing systems Leon Feng J. Senapati Bill Liu 50 6 0 18 Jul 2022
ELECTRA is a Zero-Shot Learner, Too Shiwen Ni Hung-Yu kao 67 9 0 17 Jul 2022
Bi-PointFlowNet: Bidirectional Learning for Point Cloud Based Scene Flow Estimation Wencan Cheng J. Ko 3DPC 87 55 0 15 Jul 2022
A Systematic Review and Replicability Study of BERT4Rec for Sequential Recommendation Aleksandr V. Petrov Craig Macdonald 83 47 0 15 Jul 2022
Forming Trees with Treeformers Nilay Patel Jeffrey Flanigan AI4CE 87 3 0 14 Jul 2022
Overview of Abusive and Threatening Language Detection in Urdu at FIRE 2021 Maaz Amjad Alisa Zhila Grigori Sidorov Andrey Labunets Sabur Butta Hamza Imam Amjad O. Vitman Alexander Gelbukh 44 10 0 14 Jul 2022
STI: Turbocharge NLP Inference at the Edge via Elastic Pipelining Liwei Guo Wonkyo Choe F. Lin 67 15 0 11 Jul 2022
ABB-BERT: A BERT model for disambiguating abbreviations and contractions Prateek Kacker Andi Cupallari Aswin Giridhar Subramanian Nimit Jain 93 0 0 08 Jul 2022
Big Learning Yulai Cong Miaoyun Zhao AI4CE 94 0 0 08 Jul 2022
Training Transformers Together Alexander Borzunov Max Ryabinin Tim Dettmers Quentin Lhoest Lucile Saulnier Michael Diskin Yacine Jernite Thomas Wolf ViT 63 10 0 07 Jul 2022
Win-Win Cooperation: Bundling Sequence and Span Models for Named Entity Recognition Shezheng Song Shasha Li Jie Yu Jun Ma Bin Ji 61 2 0 07 Jul 2022
Machine Learning Model Sizes and the Parameter Gap Pablo Villalobos J. Sevilla T. Besiroglu Lennart Heim A. Ho Marius Hobbhahn ALM ELM AI4CE 89 60 0 05 Jul 2022
Location reference recognition from texts: A survey and comparison Xuke Hu Zhiyong Zhou Hao Li Yingjie Hu F. Gu J. Kersten H. Fan Friederike Klan 55 51 0 04 Jul 2022
Discourse-Aware Graph Networks for Textual Logical Reasoning Yinya Huang Lemao Liu Kun Xu Meng Fang Liang Lin Xi Liang NAI 55 5 0 04 Jul 2022
An Understanding-Oriented Robust Machine Reading Comprehension Model Feiliang Ren Yongkang Liu Bochao Li Shilei Liu Bingchao Wang Jiaqi Wang Chunchao Liu Qi Ma 60 3 0 01 Jul 2022
Language model compression with weighted low-rank factorization Yen-Chang Hsu Ting Hua Sung-En Chang Qiang Lou Yilin Shen Hongxia Jin 82 109 0 30 Jun 2022
Transfer Learning with Deep Tabular Models Roman Levin Valeriia Cherepanova Avi Schwarzschild Arpit Bansal C. Bayan Bruss Tom Goldstein A. Wilson Micah Goldblum OOD FedML LMTD 141 64 0 30 Jun 2022
GPTs at Factify 2022: Prompt Aided Fact-Verification Pawan Kumar Sahu Saksham Aggarwal Taneesh Gupta Gyanendra Das 67 1 0 29 Jun 2022
Chinese Word Sense Embedding with SememeWSD and Synonym Set Yangxi Zhou Junping Du Zhe Xue Ang Li Zeli Guan 3DV 33 4 0 29 Jun 2022
Knowledge Distillation of Transformer-based Language Models Revisited Chengqiang Lu Jianwei Zhang Yunfei Chu Zhengyu Chen Jingren Zhou Leilei Gan Haiqing Chen Hongxia Yang VLM 98 11 0 29 Jun 2022
Bottleneck Low-rank Transformers for Low-resource Spoken Language Understanding Pu Wang Hugo Van hamme VLM 98 5 0 28 Jun 2022
Improving self-supervised pretraining models for epileptic seizure detection from EEG data Sudip Das Pankaja Pandey Krishna P. Miyapuram MedIm 54 4 0 28 Jun 2022
Tiny-Sepformer: A Tiny Time-Domain Transformer Network for Speech Separation Jian Luo Jianzong Wang Ning Cheng Edward Xiao Xulong Zhang Jing Xiao ViT 78 12 0 28 Jun 2022
Analyzing Encoded Concepts in Transformer Language Models Hassan Sajjad Nadir Durrani Fahim Dalvi Firoj Alam A. Khan Jia Xu 61 47 0 27 Jun 2022
Few-Shot Stance Detection via Target-Aware Prompt Distillation Yan Jiang Jinhua Gao Huawei Shen Xueqi Cheng 74 27 0 27 Jun 2022
Endowing Language Models with Multimodal Knowledge Graph Representations Ningyuan Huang Y. Deshpande Yibo Liu Houda Alberts Kyunghyun Cho Clara Vania Iacer Calixto VLM 72 16 0 27 Jun 2022
Contextual embedding and model weighting by fusing domain knowledge on Biomedical Question Answering Yuxuan Lu Jingya Yan Zhixuan Qi Zhongzheng Ge Yongping Du MedIm 50 4 0 26 Jun 2022
Automated Compliance Blueprint Optimization with Artificial Intelligence Abdulhamid A. Adebayo Daby M. Sow M. F. Bulut 19 0 0 22 Jun 2022
Transformer-Based Multi-modal Proposal and Re-Rank for Wikipedia Image-Caption Matching Nicola Messina D. Coccomini Andrea Esuli Fabrizio Falchi 31 6 0 21 Jun 2022
Pisces: Efficient Federated Learning via Guided Asynchronous Training Zhifeng Jiang Wei Wang Baochun Li Yue Liu FedML 73 25 0 18 Jun 2022
Transformer Neural Networks Attending to Both Sequence and Structure for Protein Prediction Tasks Anowarul Kabir Amarda Shehu ViT 53 3 0 17 Jun 2022
Language with Vision: a Study on Grounded Word and Sentence Embeddings Hassan Shahmohammadi Maria Heitmeier Elnaz Shafaei-Bajestan Hendrik P. A. Lensch Harald Baayen 78 11 0 17 Jun 2022
Statistical and Neural Methods for Cross-lingual Entity Label Mapping in Knowledge Graphs Gabriel Amaral Marcis Pinnis Inguna Skadicna Odinaldo Rodrigues Elena Simperl 52 3 0 17 Jun 2022
A Quantitative and Qualitative Analysis of Suicide Ideation Detection using Deep Learning Siqu Long R. Cabral Josiah Poon S. Han 23 5 0 17 Jun 2022
Bootstrapped Transformer for Offline Reinforcement Learning Kerong Wang Hanye Zhao Xufang Luo Kan Ren Weinan Zhang Dongsheng Li OffRL 73 40 0 17 Jun 2022
On Scaled Methods for Saddle Point Problems Aleksandr Beznosikov Aibek Alanov D. Kovalev Martin Takáč Alexander Gasnikov 65 6 0 16 Jun 2022
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid 149 239 0 16 Jun 2022
Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt Sören Mindermann J. Brauner Muhammed Razzak Mrinank Sharma Andreas Kirsch ... Benedikt Höltgen Aidan Gomez Adrien Morisot Sebastian Farquhar Y. Gal 130 165 0 14 Jun 2022
LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning Tasks Tuan Dinh Yuchen Zeng Ruisu Zhang Ziqian Lin Michael Gira Shashank Rajput Jy-yong Sohn Dimitris Papailiopoulos Kangwook Lee LMTD 176 139 0 14 Jun 2022
DeepEmotex: Classifying Emotion in Text Messages using Deep Transfer Learning Maryam Hasan Elke A. Rundensteiner E. Agu VLM 28 8 0 12 Jun 2022
Meet You Halfway: Explaining Deep Learning Mysteries Oriel BenShmuel AAML FedML FAtt OOD 56 0 0 09 Jun 2022