Decoupled Weight Decay Regularization

14 November 2017

Papers citing "Decoupled Weight Decay Regularization"

50 / 381 papers shown

Title
Neural Ordinary Differential Equations for Nonlinear System Identification Aowabin Rahman Ján Drgoňa Aaron Tuor J. Strube 25 22 0 28 Feb 2022
QuoteR: A Benchmark of Quote Recommendation for Writing Fanchao Qi Yanhui Yang Jing Yi Zhili Cheng Zhiyuan Liu Maosong Sun 20 14 0 26 Feb 2022
Priming Cross-Session Motor Imagery Classification with A Universal Deep Domain Adaptation Framework Zhengqing Miao Xin Zhang C. Menon Yelong Zheng Mei-rong Zhao Dong Ming 35 18 0 19 Feb 2022
TransCG: A Large-Scale Real-World Dataset for Transparent Object Depth Completion and a Grasping Baseline Hongjie Fang Haoshu Fang Shengwei Xu Cewu Lu 3DV 21 71 0 17 Feb 2022
Distillation with Contrast is All You Need for Self-Supervised Point Cloud Representation Learning Kexue Fu Peng Gao Renrui Zhang Hongsheng Li Yu Qiao Manning Wang SSL 3DPC 28 23 0 09 Feb 2022
A Stochastic Bundle Method for Interpolating Networks Alasdair Paren Leonard Berrada Rudra P. K. Poudel M. P. Kumar 24 4 0 29 Jan 2022
UniFormer: Unifying Convolution and Self-attention for Visual Recognition Kunchang Li Yali Wang Junhao Zhang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 162 360 0 24 Jan 2022
CLIP-Event: Connecting Text and Images with Event Structures Manling Li Ruochen Xu Shuohang Wang Luowei Zhou Xudong Lin Chenguang Zhu Michael Zeng Heng Ji Shih-Fu Chang VLM CLIP 27 123 0 13 Jan 2022
UniFormer: Unified Transformer for Efficient Spatiotemporal Representation Learning Kunchang Li Yali Wang Peng Gao Guanglu Song Yu Liu Hongsheng Li Yu Qiao ViT 47 238 0 12 Jan 2022
Low-Rank Constraints for Fast Inference in Structured Models Justin T. Chiu Yuntian Deng Alexander M. Rush BDL 32 13 0 08 Jan 2022
Augmenting Convolutional networks with attention-based aggregation Hugo Touvron Matthieu Cord Alaaeldin El-Nouby Piotr Bojanowski Armand Joulin Gabriel Synnaeve Hervé Jégou ViT 38 47 0 27 Dec 2021
Time-Equivariant Contrastive Video Representation Learning Simon Jenni Hailin Jin SSL AI4TS 143 60 0 07 Dec 2021
UniLog: Deploy One Model and Specialize it for All Log Analysis Tasks Yichen Zhu Weibin Meng Ying Liu Shenglin Zhang Tao Han Shimin Tao Dan Pei MoE 41 14 0 06 Dec 2021
MViTv2: Improved Multiscale Vision Transformers for Classification and Detection Yanghao Li Chaoxia Wu Haoqi Fan K. Mangalam Bo Xiong Jitendra Malik Christoph Feichtenhofer ViT 75 678 0 02 Dec 2021
MC-SSL0.0: Towards Multi-Concept Self-Supervised Learning Sara Atito Muhammad Awais Ammarah Farooq Zhenhua Feng J. Kittler 17 17 0 30 Nov 2021
Point-BERT: Pre-training 3D Point Cloud Transformers with Masked Point Modeling Xumin Yu Lulu Tang Yongming Rao Tiejun Huang Jie Zhou Jiwen Lu 3DPC 51 655 0 29 Nov 2021
SwiftSRGAN -- Rethinking Super-Resolution for Efficient and Real-time Inference Koushik Sivarama Krishnan Karthik Sivarama Krishnan 20 8 0 29 Nov 2021
Intuitive Shape Editing in Latent Space Tim Elsner Moritz Ibing Victor Czech Julius Nehring-Wirxel Leif Kobbelt 13 7 0 24 Nov 2021
Efficient Video Transformers with Spatial-Temporal Token Selection Junke Wang Xitong Yang Hengduo Li Li Liu Zuxuan Wu Yu-Gang Jiang ViT 21 63 0 23 Nov 2021
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing Pengcheng He Jianfeng Gao Weizhu Chen 30 1,120 0 18 Nov 2021
Are we ready for a new paradigm shift? A Survey on Visual Deep MLP Ruiyang Liu Hai-Tao Zheng Li Tao Dun Liang Haitao Zheng 85 97 0 07 Nov 2021
Leveraging Sentiment Analysis Knowledge to Solve Emotion Detection Tasks Maude Nguyen-The Guillaume-Alexandre Bilodeau Jan Rockemann 19 4 0 05 Nov 2021
Detecting Logical Relation In Contract Clauses Alexandre Yukio Ichida Felipe Meneguzzi 6 0 0 02 Nov 2021
Can Vision Transformers Perform Convolution? Shanda Li Xiangning Chen Di He Cho-Jui Hsieh ViT 49 19 0 02 Nov 2021
AxoNN: An asynchronous, message-driven parallel framework for extreme-scale deep learning Siddharth Singh A. Bhatele GNN 34 14 0 25 Oct 2021
Seeking Patterns, Not just Memorizing Procedures: Contrastive Learning for Solving Math Word Problems Zhongli Li Wenxuan Zhang Chao Yan Qingyu Zhou Chao Li Hongzhi Liu Yunbo Cao AIMat 38 55 0 16 Oct 2021
Control Prefixes for Parameter-Efficient Text Generation Jordan Clive Kris Cao Marek Rei 44 32 0 15 Oct 2021
SVG-Net: An SVG-based Trajectory Prediction Model Mohammadhossein Bahari Vahid Zehtab Sadegh Khorasani Sana Ayromlou Saeed Saadatnejad Alexandre Alahi 3DPC 24 3 0 07 Oct 2021
8-bit Optimizers via Block-wise Quantization Tim Dettmers M. Lewis Sam Shleifer Luke Zettlemoyer MQ 34 273 0 06 Oct 2021
One Representative-Shot Learning Using a Population-Driven Template with Application to Brain Connectivity Classification and Evolution Prediction Umut Guvercin Mohammed Amine Gharsallaoui I. Rekik 34 6 0 06 Oct 2021
VTAMIQ: Transformers for Attention Modulated Image Quality Assessment Andrei Chubarau James Clark ViT 36 9 0 04 Oct 2021
ResNet strikes back: An improved training procedure in timm Ross Wightman Hugo Touvron Hervé Jégou AI4TS 212 487 0 01 Oct 2021
MFEViT: A Robust Lightweight Transformer-based Network for Multimodal 2D+3D Facial Expression Recognition Hanting Li Ming-Fa Sui Zhaoqing Zhu Feng Zhao ViT 53 3 0 20 Sep 2021
RetrievalSum: A Retrieval Enhanced Framework for Abstractive Summarization Chen An Ming Zhong Zhichao Geng Jianqiang Yang Xipeng Qiu RALM 20 23 0 16 Sep 2021
ePiC: Employing Proverbs in Context as a Benchmark for Abstract Language Understanding Sayan Ghosh Shashank Srivastava 18 11 0 14 Sep 2021
D-REX: Dialogue Relation Extraction with Explanations Alon Albalak Varun R. Embar Yi-Lin Tuan Lise Getoor Luu Anh Tuan 67 9 0 10 Sep 2021
Sequential Attention Module for Natural Language Processing Mengyuan Zhou Jian Ma Haiqing Yang Lian-Xin Jiang Yang Mo AI4TS 27 2 0 07 Sep 2021
Knowledge-Grounded Dialogue with Reward-Driven Knowledge Selection Shilei Liu Xiaofeng Zhao Bochao Li Feiliang Ren 18 1 0 31 Aug 2021
A Battle of Network Structures: An Empirical Study of CNN, Transformer, and MLP Yucheng Zhao Guangting Wang Chuanxin Tang Chong Luo Wenjun Zeng Zhengjun Zha 35 69 0 30 Aug 2021
ReGen: Reinforcement Learning for Text and Knowledge Base Generation using Pretrained Language Models Pierre L. Dognin Inkit Padhi Igor Melnyk Payel Das OffRL 24 20 0 27 Aug 2021
PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers Xumin Yu Yongming Rao Ziyi Wang Zuyan Liu Jiwen Lu Jie Zhou ViT 39 426 0 19 Aug 2021
Disentangling Hate in Online Memes Rui Cao Ziqing Fan Roy Ka-Wei Lee Wen-Haw Chong Jing Jiang 26 76 0 09 Aug 2021
Large-Scale Differentially Private BERT Rohan Anil Badih Ghazi Vineet Gupta Ravi Kumar Pasin Manurangsi 36 131 0 03 Aug 2021
Improving Robustness and Accuracy via Relative Information Encoding in 3D Human Pose Estimation Wenkang Shan Haopeng Lu Shanshe Wang Xinfeng Zhang Wen Gao 3DH 22 63 0 29 Jul 2021
A Deep Learning-based Quality Assessment and Segmentation System with a Large-scale Benchmark Dataset for Optical Coherence Tomographic Angiography Image Yu-Fang Wang Yiqing Shen Meng Yuan Jing Xu B. Yang Chicheng Liu Wenjia Cai Weijing Cheng Wei Wang 33 18 0 22 Jul 2021
Knowledge-Grounded Self-Rationalization via Extractive and Natural Language Explanations Bodhisattwa Prasad Majumder Oana-Maria Camburu Thomas Lukasiewicz Julian McAuley 25 35 0 25 Jun 2021
BitFit: Simple Parameter-efficient Fine-tuning for Transformer-based Masked Language-models Elad Ben-Zaken Shauli Ravfogel Yoav Goldberg 50 1,154 0 18 Jun 2021
Label prompt for multi-label text classification Rui Song Xingbing Chen Zelong Liu Haining An Zhiqi Zhang Xiaoguang Wang Hao Xu VLM 28 4 0 18 Jun 2021
PRGC: Potential Relation and Global Correspondence Based Joint Relational Triple Extraction Heng Zheng Rui Wen Xi Chen Yifan Yang Yunyan Zhang Ziheng Zhang Ningyu Zhang Bin Qin Ming Xu Yefeng Zheng 32 197 0 18 Jun 2021
Efficient Self-supervised Vision Transformers for Representation Learning Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao ViT 37 209 0 17 Jun 2021