v1v2 (latest)

Lookahead Optimizer: k steps forward, 1 step back

19 July 2019

Jimmy Ba

Papers citing "Lookahead Optimizer: k steps forward, 1 step back"

50 / 357 papers shown

Title
VISION DIFFMASK: Faithful Interpretation of Vision Transformers with Differentiable Patch Masking A. Nalmpantis Apostolos Panagiotopoulos John Gkountouras Konstantinos Papakostas Wilker Aziz 45 5 0 13 Apr 2023
$β$ -Variational autoencoders and transformers for reduced-order modelling of fluid flows Alberto Solera-Rico Carlos Sanmiguel Vila Miguel Gómez-López Yuning Wang Abdulrahman Almashjary Scott T. M. Dawson Ricardo Vinuesa DRL 105 91 0 07 Apr 2023
Astroformer: More Data Might not be all you need for Classification Rishit Dagli 107 8 0 03 Apr 2023
HS-Pose: Hybrid Scope Feature Extraction for Category-level Object Pose Estimation Linfang Zheng Chen Wang Ying Sun Esha Dasgupta Hua Chen A. Leonardis Wei Zhang H. Chang 3DPC 97 44 0 28 Mar 2023
TriPlaneNet: An Encoder for EG3D Inversion A. Bhattarai Matthias Nießner Artem Sevastopolsky 87 35 0 23 Mar 2023
Make Encoder Great Again in 3D GAN Inversion through Geometry and Occlusion-Aware Encoding Ziyang Yuan Yiming Zhu Yu Li Hongyu Liu Chun Yuan 3DV 67 37 0 22 Mar 2023
Picture that Sketch: Photorealistic Image Generation from Abstract Sketches Subhadeep Koley A. Bhunia Aneeshan Sain Pinaki Nath Chowdhury Tao Xiang Yi-Zhe Song 3DH 116 35 0 20 Mar 2023
Judging Adam: Studying the Performance of Optimization Methods on ML4SE Tasks D. Pasechnyuk Anton Prazdnichnykh Mikhail Evtikhiev T. Bryksin 67 1 0 06 Mar 2023
FoundationTTS: Text-to-Speech for ASR Customization with Generative Language Model Rui Xue Yanqing Liu Lei He Xuejiao Tan Linquan Liu Ed Lin Sheng Zhao 118 7 0 06 Mar 2023
Dropout Reduces Underfitting Zhuang Liu Zhi-Qin John Xu Joseph Jin Zhiqiang Shen Trevor Darrell 160 42 0 02 Mar 2023
BEL: A Bag Embedding Loss for Transformer enhances Multiple Instance Whole Slide Image Classification Daniel Sens Ario Sadafi F. P. Casale Nassir Navab Carsten Marr ViT MedIm 39 1 0 02 Mar 2023
Domain-Specific Pre-training Improves Confidence in Whole Slide Image Classification S. Chitnis Sidong Liu T. Dash T. Verlekar A. Di Ieva S. Berkovsky Lovekesh Vig A. Srinivasan 36 4 0 20 Feb 2023
One-Shot Face Video Re-enactment using Hybrid Latent Spaces of StyleGAN2 Trevine Oorloff Yaser Yacoob CVBM 53 3 0 15 Feb 2023
Unlocking Deterministic Robustness Certification on ImageNet Kaiqin Hu Andy Zou Zifan Wang Klas Leino Matt Fredrikson OOD 135 14 0 29 Jan 2023
What Decreases Editing Capability? Domain-Specific Hybrid Refinement for Improved GAN Inversion Pu Cao Lu Yang Dongxu Liu Zhiwei Liu Shan Li Q. Song 112 7 0 28 Jan 2023
FewShotTextGCN: K-hop neighborhood regularization for few-shot learning on graphs Niels van der Heijden Ekaterina Shutova H. Yannakoudakis 97 0 0 25 Jan 2023
Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter Initialization Davood Wadi M. Fredette S. Sénécal ODL AI4CE 37 0 0 24 Jan 2023
Multi-fidelity surrogate modeling for temperature field prediction using deep convolution neural network Yunyang Zhang Zhiqiang Gong Weien Zhou Xiaoyu Zhao Xiaohu Zheng Wen Yao AI4CE 56 25 0 17 Jan 2023
Improving Depression estimation from facial videos with face alignment, training optimization and scheduling Manuel Lage Cañellas Constantino Álvarez Casado L. Nguyen Miguel Bordallo López CVBM 49 3 0 13 Dec 2022
Real-time Sampling-based Model Predictive Control based on Reverse Kullback-Leibler Divergence and Its Adaptive Acceleration Taisuke Kobayashi Kota Fukumoto 75 4 0 08 Dec 2022
A survey of deep learning optimizers -- first and second order methods Rohan Kashyap ODL 106 7 0 28 Nov 2022
GAN Inversion for Image Editing via Unsupervised Domain Adaptation Siyu Xing Chen Gong Hewei Guo Xiaoyi Zhang Xinwen Hou Yu Liu 110 6 0 22 Nov 2022
Efficient Generalization Improvement Guided by Random Weight Perturbation Tao Li Wei Yan Zehao Lei Yingwen Wu Kun Fang Ming-Hsuan Yang Xiaolin Huang AAML 74 6 0 21 Nov 2022
Delving StyleGAN Inversion for Image Editing: A Foundation Latent Space Viewpoint Hongyu Liu Yibing Song Qifeng Chen DiffM 96 21 0 21 Nov 2022
Can neural networks extrapolate? Discussion of a theorem by Pedro Domingos Adrien Courtois Jean-Michel Morel Pablo Arias 43 6 0 07 Nov 2022
Momentum-based Weight Interpolation of Strong Zero-Shot Models for Continual Learning Zafir Stojanovski Karsten Roth Zeynep Akata 67 17 0 06 Nov 2022
Iterative Teaching by Data Hallucination Zeju Qiu Weiyang Liu Tim Z. Xiao Zhen Liu Umang Bhatt Yucen Luo Adrian Weller Bernhard Schölkopf 121 9 0 31 Oct 2022
Reduce Catastrophic Forgetting of Dense Retrieval Training with Teleportation Negatives Si Sun Chenyan Xiong Yue Yu Arnold Overwijk Zhiyuan Liu Jie Bao 82 6 0 31 Oct 2022
SAM as an Optimal Relaxation of Bayes Thomas Möllenhoff Mohammad Emtiyaz Khan BDL 99 35 0 04 Oct 2022
Combined Dynamic Virtual Spatiotemporal Graph Mapping for Traffic Prediction Ying-Hung Pu AI4TS 21 0 0 03 Oct 2022
Stop Wasting My Time! Saving Days of ImageNet and BERT Training with Latest Weight Averaging Jean Kaddour MoMe 3DH 85 41 0 29 Sep 2022
Beat Transformer: Demixed Beat and Downbeat Tracking with Dilated Self-Attention Jingwei Zhao Gus Xia Ye Wang 66 19 0 15 Sep 2022
SketchBetween: Video-to-Video Synthesis for Sprite Animation via Sketches Dagmar Lukka Loftsdóttir Matthew J. Guzdial VGen 74 4 0 01 Sep 2022
Interpretable (not just posthoc-explainable) medical claims modeling for discharge placement to prevent avoidable all-cause readmissions or death Joshua C. Chang Ted L. Chang Carson C. Chow R. Mahajan Sonya Mahajan Joe Maisog Shashaank Vattikuti Hongjing Xia FAtt OOD 94 0 0 28 Aug 2022
Lottery Pools: Winning More by Interpolating Tickets without Increasing Training or Inference Cost Lu Yin Shiwei Liu Fang Meng Tianjin Huang Vlado Menkovski Mykola Pechenizkiy 56 13 0 23 Aug 2022
CM-MLP: Cascade Multi-scale MLP with Axial Context Relation Encoder for Edge Segmentation of Medical Image Jinkai Lv Yuyong Hu Quanshui Fu Zhiwang Zhang Yuqiang Hu Lin Lv Guoqing Yang Jinpeng Li Yi Zhao MedIm 62 9 0 23 Aug 2022
TransNet: Category-Level Transparent Object Pose Estimation Huijie Zhang Anthony Opipari Xiaotong Chen Jiyue Zhu Zeren Yu Odest Chadwicke Jenkins ViT 53 12 0 22 Aug 2022
SSP-Pose: Symmetry-Aware Shape Prior Deformation for Direct Category-Level Object Pose Estimation Ruida Zhang Yan Di Fabian Manhardt F. Tombari Xiangyang Ji 77 37 0 13 Aug 2022
Regularizing Deep Neural Networks with Stochastic Estimators of Hessian Trace Yucong Liu Shixing Yu Tong Lin 56 1 0 11 Aug 2022
Boosting Video-Text Retrieval with Explicit High-Level Semantics Haoran Wang Di Xu Dongliang He Fu Li Zhong Ji Jungong Han Errui Ding 71 13 0 08 Aug 2022
RBP-Pose: Residual Bounding Box Projection for Category-Level Pose Estimation Ruida Zhang Yan Di Zhiqiang Lou Fabian Manhardt F. Tombari Xiangyang Ji 3DPC 111 48 0 30 Jul 2022
PEA: Improving the Performance of ReLU Networks for Free by Using Progressive Ensemble Activations Á. Utasi 49 0 0 28 Jul 2022
On the benefits of non-linear weight updates Paul Norridge 48 0 0 25 Jul 2022
Easy Batch Normalization Arip Asadulaev Alexander Panfilov Andrey Filchenkov AAML 28 0 0 18 Jul 2022
CATRE: Iterative Point Clouds Alignment for Category-level Object Pose Refinement Xingyu Liu Gu Wang Yi Li Xiangyang Ji 3DPC 77 29 0 17 Jul 2022
Benchopt: Reproducible, efficient and collaborative optimization benchmarks Thomas Moreau Mathurin Massias Alexandre Gramfort Pierre Ablin Pierre-Antoine Bannier Benjamin Charlier ... Binh Duc Nguyen A. Rakotomamonjy Zaccharie Ramzi Joseph Salmon Samuel Vaiter 126 36 0 27 Jun 2022
NVIDIA-UNIBZ Submission for EPIC-KITCHENS-100 Action Anticipation Challenge 2022 Tsung-Ming Tai Oswald Lanz G. Fiameni Yi-Kwan Wong Sze-Sen Poon Cheng-Kuang Lee Ka Chun Cheung Simon See 23 1 0 22 Jun 2022
Solving Constrained Variational Inequalities via a First-order Interior Point-based Method Tong Yang Michael I. Jordan Tatjana Chavdarova 92 10 0 21 Jun 2022
Unified Recurrence Modeling for Video Action Anticipation Tsung-Ming Tai G. Fiameni Cheng-Kuang Lee Simon See Oswald Lanz 74 8 0 02 Jun 2022
Hopular: Modern Hopfield Networks for Tabular Data Bernhard Schafl Lukas Gruber Angela Bitto-Nemling Sepp Hochreiter LMTD 71 29 0 01 Jun 2022