Decoupled Weight Decay Regularization

14 November 2017

Papers citing "Decoupled Weight Decay Regularization"

50 / 369 papers shown

Title
8-bit Numerical Formats for Deep Neural Networks Badreddine Noune Philip Jones Daniel Justus Dominic Masters Carlo Luschi MQ 23 33 0 06 Jun 2022
XBound-Former: Toward Cross-scale Boundary Modeling in Transformers Jiacheng Wang Fei Chen Yuxi Ma Liansheng Wang Zhaodong Fei Jia Shuai Xiangdong Tang Qichao Zhou Jing Qin ViT MedIm 27 63 0 02 Jun 2022
StyleTTS: A Style-Based Generative Model for Natural and Diverse Text-to-Speech Synthesis Yinghao Aaron Li Cong Han N. Mesgarani 36 38 0 30 May 2022
GMML is All you Need Sara Atito Muhammad Awais J. Kittler ViT VLM 46 18 0 30 May 2022
Image Harmonization with Region-wise Contrastive Learning Jing Liang Chi-Man Pun 39 4 0 27 May 2022
Beyond the Granularity: Multi-Perspective Dialogue Collaborative Selection for Dialogue State Tracking Jinyu Guo Kai Shuang Jijie Li Zihan Wang Yixuan Liu 16 17 0 20 May 2022
Speckle Image Restoration without Clean Data Tsung-Ming Tai Yun-Jie Jhang Wen-Jyi Hwang Chau-Jern Cheng 14 4 0 18 May 2022
Persian Natural Language Inference: A Meta-learning approach Heydar Soudani Mohammadreza Mojab H. Beigy 32 1 0 18 May 2022
MulT: An End-to-End Multitask Learning Transformer Deblina Bhattacharjee Tong Zhang Sabine Süsstrunk Mathieu Salzmann ViT 39 62 0 17 May 2022
Generating Tips from Song Reviews: A New Dataset and Framework Jingya Zang Cuiyun Gao Yupan Chen Ruifeng Xu Lanjun Zhou Xuan Wang 23 1 0 14 May 2022
Adaptive Block Floating-Point for Analog Deep Learning Hardware Ayon Basumallik D. Bunandar Nicholas Dronen Nicholas Harris Ludmila Levkova Calvin McCarter Lakshmi Nair David Walter David Widemann 17 6 0 12 May 2022
SimCPSR: Simple Contrastive Learning for Paper Submission Recommendation System Duc H. Le T. T. Doan S. Huynh Binh T. Nguyen 9 0 0 12 May 2022
SuMe: A Dataset Towards Summarizing Biomedical Mechanisms Mohaddeseh Bastan N. Shankar Mihai Surdeanu Niranjan Balasubramanian 21 3 0 10 May 2022
OPT: Open Pre-trained Transformer Language Models Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen ... Daniel Simig Punit Singh Koura Anjali Sridhar Tianlu Wang Luke Zettlemoyer VLM OSLM AI4CE 61 3,488 0 02 May 2022
Dynamic Curriculum Learning for Great Ape Detection in the Wild Xinyu Yang T. Burghardt Majid Mirmehdi 27 14 0 30 Apr 2022
Leaner and Faster: Two-Stage Model Compression for Lightweight Text-Image Retrieval Siyu Ren Kenny Q. Zhu VLM 27 7 0 29 Apr 2022
Learning to Parallelize in a Shared-Memory Environment with Transformers Reém Harel Yuval Pinter Gal Oren 45 17 0 27 Apr 2022
Control Globally, Understand Locally: A Global-to-Local Hierarchical Graph Network for Emotional Support Conversation Wei Peng Yue Hu Luxi Xing Yuqiang Xie Yajing Sun Yunpeng Li 14 79 0 27 Apr 2022
EPiDA: An Easy Plug-in Data Augmentation Framework for High Performance Text Classification Minyi Zhao Lu Zhang Yi Xu Jiandong Ding Jihong Guan Shuigeng Zhou VLM 46 10 0 24 Apr 2022
GPT-NeoX-20B: An Open-Source Autoregressive Language Model Sid Black Stella Biderman Eric Hallahan Quentin G. Anthony Leo Gao ... Shivanshu Purohit Laria Reynolds J. Tow Benqi Wang Samuel Weinbach 96 801 0 14 Apr 2022
Towards Metrical Reconstruction of Human Faces Wojciech Zielonka Timo Bolkart Justus Thies CVBM 3DH 36 143 0 13 Apr 2022
HFT: Lifting Perspective Representations via Hybrid Feature Transformation Jiayu Zou Jun Xiao Zheng Hua Zhu Junjie Huang Guan Huang Dalong Du Xingang Wang 39 18 0 11 Apr 2022
Reducing Model Jitter: Stable Re-training of Semantic Parsers in Production Environments Christopher Hidey Fei Liu Rahul Goel 24 4 0 10 Apr 2022
MMTAfrica: Multilingual Machine Translation for African Languages Chris C. Emezue Bonaventure F. P. Dossou 24 24 0 08 Apr 2022
MixFormer: Mixing Features across Windows and Dimensions Qiang Chen Qiman Wu Jian Wang Qinghao Hu T. Hu Errui Ding Jian Cheng Jingdong Wang MDE ViT 31 101 0 06 Apr 2022
POS-BERT: Point Cloud One-Stage BERT Pre-Training Kexue Fu Peng Gao Shaolei Liu Renrui Zhang Yu Qiao Manning Wang 3DPC 30 18 0 03 Apr 2022
Do learned representations respect causal relationships? Lan Wang Vishnu Naresh Boddeti NAI CML OOD 40 6 0 02 Apr 2022
Automatic Biomedical Term Clustering by Learning Fine-grained Term Representations Sihang Zeng Zheng Yuan Sheng Yu 10 4 0 01 Apr 2022
CAT-Net: A Cross-Slice Attention Transformer Model for Prostate Zonal Segmentation in MRI A. Hung Haoxin Zheng Qi Miao S. Raman D. Terzopoulos Kyunghyun Sung ViT MedIm 30 44 0 29 Mar 2022
MISC: A MIxed Strategy-Aware Model Integrating COMET for Emotional Support Conversation Quan Tu Yanran Li Jianwei Cui Bin Wang Jiaxin Wen Rui Yan 26 94 0 25 Mar 2022
Match the Script, Adapt if Multilingual: Analyzing the Effect of Multilingual Pretraining on Cross-lingual Transferability Yoshinari Fujinuma Jordan L. Boyd-Graber Katharina Kann AAML 62 23 0 21 Mar 2022
Distinguishing Non-natural from Natural Adversarial Samples for More Robust Pre-trained Language Model Jiayi Wang Rongzhou Bao Zhuosheng Zhang Hai Zhao AAML 29 4 0 19 Mar 2022
DXQ-Net: Differentiable LiDAR-Camera Extrinsic Calibration Using Quality-aware Flow Xin Jing X. Ding R. Xiong Huanjun Deng Yue Wang 3DPC 19 24 0 17 Mar 2022
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering Yang Ding Jing Yu Bangchang Liu Yue Hu Mingxin Cui Qi Wu 13 62 0 17 Mar 2022
Attribute Surrogates Learning and Spectral Tokens Pooling in Transformers for Few-shot Learning Yang He Weihan Liang Dongyang Zhao Hong-Yu Zhou Weifeng Ge Yizhou Yu Wenqiang Zhang ViT 32 45 0 17 Mar 2022
CUE Vectors: Modular Training of Language Models Conditioned on Diverse Contextual Signals Scott Novotney Sreeparna Mukherjee Zeeshan Ahmed A. Stolcke 19 5 0 16 Mar 2022
Don't Say What You Don't Know: Improving the Consistency of Abstractive Summarization by Constraining Beam Search Daniel King Zejiang Shen Nishant Subramani Daniel S. Weld Iz Beltagy Doug Downey HILM 28 31 0 16 Mar 2022
Active Learning by Feature Mixing Amin Parvaneh Ehsan Abbasnejad Damien Teney Reza Haffari Anton Van Den Hengel Javen Qinfeng Shi 32 90 0 14 Mar 2022
DS3-Net: Difficulty-perceived Common-to-T1ce Semi-Supervised Multimodal MRI Synthesis Network Ziqi Huang Li Lin Pujin Cheng Kai Pan Xiaoying Tang DiffM MedIm 32 9 0 14 Mar 2022
Robust Multi-Task Learning and Online Refinement for Spacecraft Pose Estimation across Domain Gap T. Park Simone DÁmico 16 63 0 08 Mar 2022
Neural Ordinary Differential Equations for Nonlinear System Identification Aowabin Rahman Ján Drgoňa Aaron Tuor J. Strube 25 22 0 28 Feb 2022
QuoteR: A Benchmark of Quote Recommendation for Writing Fanchao Qi Yanhui Yang Jing Yi Zhili Cheng Zhiyuan Liu Maosong Sun 18 14 0 26 Feb 2022
Priming Cross-Session Motor Imagery Classification with A Universal Deep Domain Adaptation Framework Zhengqing Miao Xin Zhang C. Menon Yelong Zheng Mei-rong Zhao Dong Ming 35 18 0 19 Feb 2022
TransCG: A Large-Scale Real-World Dataset for Transparent Object Depth Completion and a Grasping Baseline Hongjie Fang Haoshu Fang Shengwei Xu Cewu Lu 3DV 18 71 0 17 Feb 2022
Distillation with Contrast is All You Need for Self-Supervised Point Cloud Representation Learning Kexue Fu Peng Gao Renrui Zhang Hongsheng Li Yu Qiao Manning Wang SSL 3DPC 25 23 0 09 Feb 2022
A Stochastic Bundle Method for Interpolating Networks Alasdair Paren Leonard Berrada Rudra P. K. Poudel M. P. Kumar 24 4 0 29 Jan 2022
UniFormer: Unifying Convolution and Self-attention for Visual Recognition Kunchang Li Yali Wang Junhao Zhang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 162 360 0 24 Jan 2022
CLIP-Event: Connecting Text and Images with Event Structures Manling Li Ruochen Xu Shuohang Wang Luowei Zhou Xudong Lin Chenguang Zhu Michael Zeng Heng Ji Shih-Fu Chang VLM CLIP 21 123 0 13 Jan 2022
UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning Kunchang Li Yali Wang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 47 238 0 12 Jan 2022
Low-Rank Constraints for Fast Inference in Structured Models Justin T. Chiu Yuntian Deng Alexander M. Rush BDL 32 13 0 08 Jan 2022