Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation

15 August 2013

Aaron Courville

Papers citing "Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation"

50 / 1,511 papers shown

Title
GFT: Graph Foundation Model with Transferable Tree Vocabulary Zehong Wang Zheyuan Zhang Nitesh Chawla Chuxu Zhang Yanfang Ye 103 20 0 09 Nov 2024
When are 1.58 bits enough? A Bottom-up Exploration of BitNet Quantization Jacob Nielsen Lukas Galke Peter Schneider-Kamp MQ 98 1 0 08 Nov 2024
Poor Man's Training on MCUs: A Memory-Efficient Quantized Back-Propagation-Free Approach Yequan Zhao Hai Li Ian Young Zheng Zhang MQ 104 3 0 07 Nov 2024
Finding Strong Lottery Ticket Networks with Genetic Algorithms Philipp Altmann Julian Schonberger Maximilian Zorn Thomas Gabor 68 1 0 07 Nov 2024
Image Understanding Makes for A Good Tokenizer for Image Generation Luting Wang Yang Zhao Zijian Zhang Jiashi Feng Si Liu Bingyi Kang VLM 91 4 0 07 Nov 2024
Neuromorphic Wireless Split Computing with Multi-Level Spikes Dengyu Wu Jiechen Chen Bipin Rajendran H. Vincent Poor Osvaldo Simeone 85 1 0 07 Nov 2024
The Differentiable Feasibility Pump M. Cacciola Alexandre Forel A. Frangioni Andrea Lodi 103 0 0 05 Nov 2024
Addressing Representation Collapse in Vector Quantized Models with One Linear Layer Yongxin Zhu Bing Li Yifei Xin Linli Xu 115 13 0 04 Nov 2024
Learning Where to Edit Vision Transformers Yunqiao Yang Long-Kai Huang Shengzhuang Chen Kede Ma Ying Wei KELM 96 1 0 04 Nov 2024
Bootstrapping Top-down Information for Self-modulating Slot Attention Dongwon Kim Seoyeon Kim Suha Kwak OCL ObjD 83 0 0 04 Nov 2024
Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval Nikolaos Flemotomos Roger Hsiao P. Swietojanski Takaaki Hori Dogan Can Xiaodan Zhuang 126 1 0 01 Nov 2024
HoloChrome: Polychromatic Illumination for Speckle Reduction in Holographic Near-Eye Displays Florian Schiffers Grace Kuo N. Matsuda Douglas Lanman O. Cossairt 66 2 0 31 Oct 2024
ELMGS: Enhancing memory and computation scaLability through coMpression for 3D Gaussian Splatting Muhammad Salman Ali Sung-Ho Bae Enzo Tartaglione 3DGS 85 9 0 30 Oct 2024
SimSiam Naming Game: A Unified Approach for Representation Learning and Emergent Communication Nguyen Le Hoang T. Taniguchi Fang Tianwei Akira Taniguchi 95 1 0 29 Oct 2024
LARP: Tokenizing Videos with a Learned Autoregressive Generative Prior Hanyu Wang Saksham Suri Yixuan Ren Hao Chen Abhinav Shrivastava VGen 109 12 0 28 Oct 2024
MrT5: Dynamic Token Merging for Efficient Byte-level Language Models Julie Kallini Shikhar Murty Christopher D. Manning Christopher Potts Róbert Csordás 104 4 0 28 Oct 2024
Vector Quantization Prompting for Continual Learning L. Jiao Qiuxia Lai Yu LI Qiang Xu VLM CLL 67 5 0 27 Oct 2024
Content-Aware Radiance Fields: Aligning Model Complexity with Scene Intricacy Through Learned Bitwidth Quantization Wen Liu Xue Xian Zheng Jingyi Yu Xin Lou MQ 67 0 0 25 Oct 2024
Spatial-Temporal Search for Spiking Neural Networks Kaiwei Che Zhaokun Zhou Li-xin Yuan Jianguo Zhang Yonghong Tian Luziwei Leng 51 0 0 24 Oct 2024
Taipan: Efficient and Expressive State Space Language Models with Selective Attention Chien Van Nguyen Huy Huu Nguyen Thang M. Pham Ruiyi Zhang Hanieh Deilamsalehy ... Ryan A. Rossi Trung Bui Viet Dac Lai Franck Dernoncourt Thien Huu Nguyen Mamba RALM 60 1 0 24 Oct 2024
Robust Watermarking Using Generative Priors Against Image Editing: From Benchmarking to Advances Shilin Lu Zihan Zhou Jiayou Lu Yuanzhi Zhu A. Kong WIGM 145 15 0 24 Oct 2024
Lossless KV Cache Compression to 2% Zhen Yang Jizong Han Kan Wu Ruobing Xie An Wang Xingwu Sun Zhanhui Kang VLM MQ 85 2 0 20 Oct 2024
A Complexity-Based Theory of Compositionality Eric Elmoznino Thomas Jiralerspong Yoshua Bengio Guillaume Lajoie CoGe 159 10 0 18 Oct 2024
Router-Tuning: A Simple and Effective Approach for Enabling Dynamic-Depth in Transformers Shwai He Tao Ge Guoheng Sun Bowei Tian Xiaoyang Wang Ang Li MoE 131 1 0 17 Oct 2024
End-to-end Planner Training for Language Modeling Nathan Cornille Florian Mai Jingyuan Sun Marie-Francine Moens 50 0 0 16 Oct 2024
DISP-LLM: Dimension-Independent Structural Pruning for Large Language Models Shangqian Gao Chi-Heng Lin Ting Hua Tang Zheng Yilin Shen Hongxia Jin Yen-Chang Hsu 66 10 0 15 Oct 2024
Advancing Training Efficiency of Deep Spiking Neural Networks through Rate-based Backpropagation Chengting Yu Lei Liu Gaoang Wang Erping Li Aili Wang 64 2 0 15 Oct 2024
MoH: Multi-Head Attention as Mixture-of-Head Attention Peng Jin Bo Zhu Li Yuan Shuicheng Yan MoE 105 18 0 15 Oct 2024
A CLIP-Powered Framework for Robust and Generalizable Data Selection Steve Yang Peng Ye Wanli Ouyang Dongzhan Zhou Furao Shen 117 2 0 15 Oct 2024
Learning to Optimize for Mixed-Integer Non-linear Programming Bo Tang Elias Boutros Khalil Ján Drgoňa 137 2 0 14 Oct 2024
LADMIM: Logical Anomaly Detection with Masked Image Modeling in Discrete Latent Space Shunsuke Sakai Tatushito Hasegawa Makoto Koshino 85 1 0 14 Oct 2024
QE-EBM: Using Quality Estimators as Energy Loss for Machine Translation Gahyun Yoo Jay Yoon Lee 79 0 0 14 Oct 2024
Gaussian Mixture Vector Quantization with Aggregated Categorical Posterior Mingyuan Yan Jiawei Wu Rushi Shah Dianbo Liu 52 0 0 14 Oct 2024
Differentiable Weightless Neural Networks Alan T. L. Bacellar Zachary Susskind Mauricio Breternitz Jr. E. John L. John P. Lima F. M. G. França 112 7 0 14 Oct 2024
GALA: Geometry-Aware Local Adaptive Grids for Detailed 3D Generation Dingdong Yang Yizhi Wang Konrad Schindler Ali Mahdavi Amiri Hao Zhang 92 1 0 13 Oct 2024
MoIN: Mixture of Introvert Experts to Upcycle an LLM Ajinkya Tejankar K. Navaneet Ujjawal Panchal Kossar Pourahmadi Hamed Pirsiavash MoE 134 0 0 13 Oct 2024
Towards Homogeneous Lexical Tone Decoding from Heterogeneous Intracranial Recordings Di Wu Siyuan Li Chen Feng Lu Cao Yize Zhang Jie Yang Mohamad Sawan 100 1 0 13 Oct 2024
Kaleidoscope: Learnable Masks for Heterogeneous Multi-agent Reinforcement Learning Xinran Li Ling Pan Jun Zhang 95 3 0 11 Oct 2024
Unity is Power: Semi-Asynchronous Collaborative Training of Large-Scale Models with Structured Pruning in Resource-Limited Clients Yan Li Mingyi Li Xiao Zhang Guangwei Xu Feng Chen Yuan Yuan Yifei Zou Mengying Zhao Jianbo Lu Dongxiao Yu 62 0 0 11 Oct 2024
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient Wenlong Wang Ivana Dusparic Yucheng Shi Ke Zhang Vinny Cahill Mamba 464 1 0 11 Oct 2024
Masked Generative Priors Improve World Models Sequence Modelling Capabilities Cristian Meo Mircea Lica Zarif Ikram Akihiro Nakano Vedant Shah Aniket Didolkar Dianbo Liu Anirudh Goyal Justin Dauwels OffRL 244 0 0 10 Oct 2024
Fast Feedforward 3D Gaussian Splatting Compression Yihang Chen Qianyi Wu Mengyao Li Weiyao Lin Mehrtash Harandi Jianfei Cai 3DGS 117 8 0 10 Oct 2024
Zero-Shot Generalization of Vision-Based RL Without Data Augmentation Sumeet Batra Gaurav Sukhatme OffRL DRL 83 2 0 09 Oct 2024
S2HPruner: Soft-to-Hard Distillation Bridges the Discretization Gap in Pruning Weihao Lin Shengji Tang Chong Yu Peng Ye Tao Chen 48 0 0 09 Oct 2024
DDRN:a Data Distribution Reconstruction Network for Occluded Person Re-Identification Zhaoyong Wang Yujie Liu Mingyue Li Wenxin Zhang Zongmin Li 72 0 0 09 Oct 2024
JPEG Inspired Deep Learning Ahmed H. Salamah Kaixiang Zheng Yiwen Liu En-Hui Yang 98 1 0 09 Oct 2024
Restructuring Vector Quantization with the Rotation Trick Christopher Fifty Ronald G. Junkins Dennis Duan Aniketh Iger Jerry W. Liu Ehsan Amid Sebastian Thrun Christopher Ré LLMSV 173 13 0 08 Oct 2024
Continuous Approximations for Improving Quantization Aware Training of LLMs He Li Jianhang Hong Yuanzhuo Wu Snehal Adbol Zonglin Li MQ 67 1 0 06 Oct 2024
Dynamic Diffusion Transformer Wangbo Zhao Yizeng Han Jiasheng Tang Kai Wang Yibing Song Gao Huang Fan Wang Yang You 128 15 0 04 Oct 2024
Mitigating Adversarial Perturbations for Deep Reinforcement Learning via Vector Quantization Tung M. Luu Thanh Nguyen Tee Joshua Tian Jin Sungwoon Kim Chang D. Yoo AAML 83 0 0 04 Oct 2024