Understanding deep learning requires rethinking generalization

10 November 2016

Benjamin Recht

Papers citing "Understanding deep learning requires rethinking generalization"

50 / 882 papers shown

Title
PreCog: Exploring the Relation between Memorization and Performance in Pre-trained Language Models Leonardo Ranaldi Elena Sofia Ruzzetti Fabio Massimo Zanzotto 31 6 0 08 May 2023
Token-Level Fitting Issues of Seq2seq Models Guangsheng Bao Zhiyang Teng Yue Zhang 16 0 0 08 May 2023
Analysis of Interpolating Regression Models and the Double Descent Phenomenon T. McKelvey 6 0 0 17 Apr 2023
Do deep neural networks have an inbuilt Occam's razor? Chris Mingard Henry Rees Guillermo Valle Pérez A. Louis UQCV BDL 21 16 0 13 Apr 2023
Improved Naive Bayes with Mislabeled Data Qianhan Zeng Yingqiu Zhu Xuening Zhu Feifei Wang Weichen Zhao Shuning Sun Meng Su Hansheng Wang NoLa 13 2 0 13 Apr 2023
Saddle-to-Saddle Dynamics in Diagonal Linear Networks Scott Pesme Nicolas Flammarion 31 35 0 02 Apr 2023
CoDeC: Communication-Efficient Decentralized Continual Learning Sakshi Choudhary Sai Aparna Aketi Gobinda Saha Kaushik Roy CLL 50 3 0 27 Mar 2023
VEIL: Vetting Extracted Image Labels from In-the-Wild Captions for Weakly-Supervised Object Detection Arushi Rai Adriana Kovashka 27 0 0 16 Mar 2023
Learning with Noisy Labels through Learnable Weighting and Centroid Similarity F. Wani Maria Sofia Bucarelli Fabrizio Silvestri NoLa 37 3 0 16 Mar 2023
Average of Pruning: Improving Performance and Stability of Out-of-Distribution Detection Zhen Cheng Fei Zhu Xu-Yao Zhang Cheng-Lin Liu MoMe OODD 40 11 0 02 Mar 2023
On Interpretable Approaches to Cluster, Classify and Represent Multi-Subspace Data via Minimum Lossy Coding Length based on Rate-Distortion Theory Kaige Lu Avraham Chapman 35 0 0 21 Feb 2023
Latent Class-Conditional Noise Model Jiangchao Yao Bo Han Zhihan Zhou Ya-Qin Zhang Ivor W. Tsang NoLa BDL 33 8 0 19 Feb 2023
Better Diffusion Models Further Improve Adversarial Training Zekai Wang Tianyu Pang Chao Du Min-Bin Lin Weiwei Liu Shuicheng Yan DiffM 24 208 0 09 Feb 2023
Generalization in Graph Neural Networks: Improved PAC-Bayesian Bounds on Graph Diffusion Haotian Ju Dongyue Li Aneesh Sharma Hongyang R. Zhang 31 40 0 09 Feb 2023
Generalization Bounds with Data-dependent Fractal Dimensions Benjamin Dupuis George Deligiannidis Umut cSimcsekli AI4CE 39 12 0 06 Feb 2023
Tighter Information-Theoretic Generalization Bounds from Supersamples Ziqiao Wang Yongyi Mao 32 17 0 05 Feb 2023
Understanding Reconstruction Attacks with the Neural Tangent Kernel and Dataset Distillation Noel Loo Ramin Hasani Mathias Lechner Alexander Amini Daniela Rus DD 42 5 0 02 Feb 2023
On the Lipschitz Constant of Deep Networks and Double Descent Matteo Gamba Hossein Azizpour Marten Bjorkman 28 7 0 28 Jan 2023
Task-Agnostic Graph Neural Network Evaluation via Adversarial Collaboration Xiangyu Zhao Hannes Stärk Dominique Beaini Yiren Zhao Pietro Lio' 32 0 0 27 Jan 2023
Understanding Incremental Learning of Gradient Descent: A Fine-grained Analysis of Matrix Sensing Jikai Jin Zhiyuan Li Kaifeng Lyu S. Du Jason D. Lee MLT 54 34 0 27 Jan 2023
A Simple Algorithm For Scaling Up Kernel Methods Tengyu Xu Bryan Kelly Semyon Malamud 16 0 0 26 Jan 2023
ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions Aashish Anantha Ramakrishnan Sharon X. Huang Dongwon Lee 24 5 0 05 Jan 2023
Knockoffs-SPR: Clean Sample Selection in Learning with Noisy Labels Yikai Wang Yanwei Fu Xinwei Sun NoLa 55 8 0 02 Jan 2023
Effects of Data Geometry in Early Deep Learning Saket Tiwari George Konidaris 76 7 0 29 Dec 2022
Improving group robustness under noisy labels using predictive uncertainty Dongpin Oh Dae Lee Jeunghyun Byun Bonggun Shin UQCV 23 3 0 14 Dec 2022
Criteria for Classifying Forecasting Methods Tim Januschowski Jan Gasthaus Bernie Wang David Salinas Valentin Flunkert Michael Bohlke-Schneider Laurent Callot AI4TS 21 173 0 07 Dec 2022
Sources of Noise in Dialogue and How to Deal with Them Derek Chen Zhou Yu 15 2 0 06 Dec 2022
CrossSplit: Mitigating Label Noise Memorization through Data Splitting Jihye Kim A. Baratin Yan Zhang Simon Lacoste-Julien NoLa 18 7 0 03 Dec 2022
Neural Representations Reveal Distinct Modes of Class Fitting in Residual Convolutional Networks Michal Jamro.z Marcin Kurdziel 16 0 0 01 Dec 2022
Establishment of Neural Networks Robust to Label Noise Pengwei Yang Angel Teng Jack Mangos NoLa 16 0 0 28 Nov 2022
Why Neural Networks Work Sayan Mukherjee Bernardo A. Huberman 11 2 0 26 Nov 2022
Learning with Silver Standard Data for Zero-shot Relation Extraction Tianyi Wang Jianwei Wang Ziqian Zeng 32 2 0 25 Nov 2022
On Pitfalls of Measuring Occlusion Robustness through Data Distortion Antonia Marcu 28 0 0 24 Nov 2022
Two Facets of SDE Under an Information-Theoretic Lens: Generalization of SGD via Training Trajectories and via Terminal States Ziqiao Wang Yongyi Mao 27 10 0 19 Nov 2022
Why Deep Learning Generalizes Benjamin L. Badger TDI AI4CE 20 3 0 17 Nov 2022
On the Sample Complexity of Two-Layer Networks: Lipschitz vs. Element-Wise Lipschitz Activation Amit Daniely Elad Granot MLT 17 1 0 17 Nov 2022
REPAIR: REnormalizing Permuted Activations for Interpolation Repair Keller Jordan Hanie Sedghi O. Saukh R. Entezari Behnam Neyshabur MoMe 46 94 0 15 Nov 2022
Robust Training of Graph Neural Networks via Noise Governance Siyi Qian Haochao Ying Renjun Hu Jingbo Zhou Jintai Chen Danny Chen Jian Wu NoLa 33 34 0 12 Nov 2022
Gradient Imitation Reinforcement Learning for General Low-Resource Information Extraction Xuming Hu Shiao Meng Chenwei Zhang Xiangli Yang Lijie Wen Irwin King Philip S. Yu 52 0 0 11 Nov 2022
NEON: Enabling Efficient Support for Nonlinear Operations in Resistive RAM-based Neural Network Accelerators Aditya Manglik Minesh Patel Haiyu Mao Behzad Salami Jisung Park Lois Orosa O. Mutlu 17 1 0 10 Nov 2022
How Does Sharpness-Aware Minimization Minimize Sharpness? Kaiyue Wen Tengyu Ma Zhiyuan Li AAML 23 47 0 10 Nov 2022
Do highly over-parameterized neural networks generalize since bad solutions are rare? Julius Martinetz T. Martinetz 27 1 0 07 Nov 2022
Biased Self-supervised learning for ASR Florian Kreyssig Yangyang Shi Jinxi Guo Leda Sari Abdel-rahman Mohamed P. Woodland SSL 24 2 0 04 Nov 2022
Private Semi-supervised Knowledge Transfer for Deep Learning from Noisy Labels Qiuchen Zhang Jing Ma Jian Lou Li Xiong Xiaoqian Jiang NoLa 21 0 0 03 Nov 2022
Instance-Dependent Generalization Bounds via Optimal Transport Songyan Hou Parnian Kassraie Anastasis Kratsios Andreas Krause Jonas Rothfuss 22 6 0 02 Nov 2022
Discriminative Speaker Representation via Contrastive Learning with Class-Aware Attention in Angular Space Zhe Li Man-Wai Mak Helen M. Meng 31 9 0 29 Oct 2022
A Functional-Space Mean-Field Theory of Partially-Trained Three-Layer Neural Networks Zhengdao Chen Eric Vanden-Eijnden Joan Bruna MLT 25 5 0 28 Oct 2022
Noise Injection Node Regularization for Robust Learning N. Levi I. Bloch M. Freytsis T. Volansky AI4CE 30 2 0 27 Oct 2022
Bridging the visual gap in VLN via semantically richer instructions Joaquín Ossandón Benjamín Earle Alvaro Soto 35 0 0 27 Oct 2022
The Curious Case of Benign Memorization Sotiris Anagnostidis Gregor Bachmann Lorenzo Noci Thomas Hofmann AAML 49 8 0 25 Oct 2022