Title
FPGA-Enabled Machine Learning Applications in Earth Observation: A Systematic Review Cédric Léonard Dirk Stober Martin Schulz 99 0 0 04 Jun 2025
VUSA: Virtually Upscaled Systolic Array Architecture to Exploit Unstructured Sparsity in AI Acceleration Shereef Helal Alberto García-Ortiz Lennart Bamberg 39 0 0 01 Jun 2025
Autocomp: LLM-Driven Code Optimization for Tensor Accelerators Charles Hong Sahil Bhatia Alvin Cheung Y. Shao 69 1 0 24 May 2025
The Energy Cost of Reasoning: Analyzing Energy Usage in LLMs with Test-time Compute Yunho Jin Gu-Yeon Wei David Brooks LRM 115 0 0 20 May 2025
SpikeX: Exploring Accelerator Architecture and Network-Hardware Co-Optimization for Sparse Spiking Neural Networks Boxun Xu Richard Boone Peng Li 94 0 0 18 May 2025
LLM-DSE: Searching Accelerator Parameters with LLM Agents Hanyu Wang Xinrui Wu Zijian Ding Su Zheng Chengyue Wang Tony Nowatzki Yizhou Sun Jason Cong 105 1 0 18 May 2025
Analog Foundation Models Julian Büchel Iason Chalas Giovanni Acampa An Chen Omobayode Fagbohungbe Sidney Tsai Kaoutar El Maghraoui Manuel Le Gallo Abbas Rahimi Abu Sebastian MQ 115 0 0 14 May 2025
QiMeng-TensorOp: Automatically Generating High-Performance Tensor Operators with Hardware Primitives X. Zhang Shaohui Peng Qirui Zhou Yuanbo Wen Qi Guo ... Ke Gao Chen Zhao Yanjun Wu Yunji Chen Ling Li VLM 49 1 0 08 May 2025
QiMeng-Xpiler: Transcompiling Tensor Programs for Deep Learning Systems with a Neural-Symbolic Approach Shouyang Dong Yuanbo Wen Jun Bi Di Huang Jiaming Guo ... Yifan Hao Xuehai Zhou Tianshi Chen Qi Guo Yunji Chen 43 1 0 04 May 2025
Nonlinear Computation with Linear Optics via Source-Position Encoding N. Richardson C. Bosch R. P. Adams 61 0 0 29 Apr 2025
Efficient and Asymptotically Unbiased Constrained Decoding for Large Language Models Haotian Ye Himanshu Jain Chong You A. Suresh Haowei Lin James Zou Felix X. Yu 60 0 0 12 Apr 2025
Low-Bit Integerization of Vision Transformers using Operand Reodering for Efficient Hardware Ching-Yi Lin Sahil Shah MQ 133 0 0 11 Apr 2025
Quattro: Transformer-Accelerated Iterative Linear Quadratic Regulator Framework for Fast Trajectory Optimization Yue Wang Hoayu Wang Zhaoxing Li 137 0 0 02 Apr 2025
Uni-Render: A Unified Accelerator for Real-Time Rendering Across Diverse Neural Renderers Chaojian Li Sixu Li Linrui Jiang Jingqun Zhang Yingyan Lin 125 0 0 31 Mar 2025
QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge Xuan Shen Weize Ma Jing Liu Changdi Yang Rui Ding ... Wei Niu Yanzhi Wang Pu Zhao Jun Lin Jiuxiang Gu MQ 99 0 0 20 Mar 2025
Exploring the Performance Improvement of Tensor Processing Engines through Transformation in the Bit-weight Dimension of MACs Qizhe Wu Huawen Liang Yuchen Gui Zhichen Zeng Z. He ... Letian Zhao Zhaoxi Zeng W. Yuan Wei Wu Xi Jin 59 0 0 08 Mar 2025
FORTALESA: Fault-Tolerant Reconfigurable Systolic Array for DNN Inference N. Cherezova Artur Jutman M. Jenihhin 96 0 0 06 Mar 2025
Strassen Multisystolic Array Hardware Architectures Trevor E. Pogue N. Nicolici 147 0 0 14 Feb 2025
Vision-Language Models for Edge Networks: A Comprehensive Survey Ahmed Sharshar Latif U. Khan Waseem Ullah Mohsen Guizani VLM 160 3 0 11 Feb 2025
Low-power Spike-based Wearable Analytics on RRAM Crossbars Abhiroop Bhattacharjee Jinquan Shi Wei-Chen Chen Xinxin Wang Priyadarshini Panda 102 0 0 10 Feb 2025
M2R2: Mixture of Multi-Rate Residuals for Efficient Transformer Inference Nikhil Bhendawade Mahyar Najibi Devang Naik Irina Belousova MoE 130 0 0 04 Feb 2025
Life-Cycle Emissions of AI Hardware: A Cradle-To-Grave Approach and Generational Trends Ian Schneider Hui Xu Stephan Benecke David Patterson Keguo Huang Parthasarathy Ranganathan Cooper Elsworth 166 7 0 01 Feb 2025
A Hardware-Efficient Photonic Tensor Core: Accelerating Deep Neural Networks with Structured Compression Shupeng Ning Hanqing Zhu Chenghao Feng Jiaqi Gu David Z. Pan Ray T. Chen 69 0 0 01 Feb 2025
SQ-DM: Accelerating Diffusion Models with Aggressive Quantization and Temporal Sparsity Zichen Fan Steve Dai Rangharajan Venkatesan Dennis Sylvester Brucek Khailany MQ 129 0 0 28 Jan 2025
LUT-DLA: Lookup Table as Efficient Extreme Low-Bit Deep Learning Accelerator Guoyu Li Shengyu Ye Chong Chen Yang Wang Fan Yang Ting Cao Cheng Liu Mohamed M. Sabry Mao Yang MQ 389 0 0 18 Jan 2025
Karatsuba Matrix Multiplication and its Efficient Custom Hardware Implementations Trevor E. Pogue N. Nicolici 111 0 0 15 Jan 2025
tuGEMM: Area-Power-Efficient Temporal Unary GEMM Architecture for Low-Precision Edge AI Harideep Nair P. Vellaisamy Albert Chen Joseph Finn Anna Li Manav Trivedi J. Shen 53 3 0 23 Dec 2024
Leveraging Highly Approximated Multipliers in DNN Inference Georgios Zervakis Fabio Frustaci Ourania Spantidi Iraklis Anagnostopoulos H. Amrouch Jörg Henkel 102 1 0 21 Dec 2024
PreNeT: Leveraging Computational Features to Predict Deep Neural Network Training Time Alireza Pourali Arian Boukani Hamzeh Khazaei 113 0 0 20 Dec 2024
Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory Wadjih Bencheikh Jan Finkbeiner Emre Neftci 112 0 0 16 Dec 2024
A comprehensive GeoAI review: Progress, Challenges and Outlooks Anasse Boutayeb Iyad Lahsen-cherif Ahmed El Khadimi 104 0 0 16 Dec 2024
The Evolution and Future Perspectives of Artificial Intelligence Generated Content Chengzhang Zhu Luobin Cui Ying Tang Jiacun Wang 161 1 0 02 Dec 2024
A Parallel Scan Algorithm in the Tensor Core Unit Model Anastasios Zouzias William F. McColl LRM 77 2 0 26 Nov 2024
SoK: Decentralized AI (DeAI) Zhipeng Wang Rui Sun Elizabeth Lui Vatsal Shah Xihan Xiong Jiahao Sun Davide Crapis William Knottenbelt 196 2 0 26 Nov 2024
MixPE: Quantization and Hardware Co-design for Efficient LLM Inference Yu Zhang Ming Wang Lancheng Zou Wulong Liu Hui-Ling Zhen Mingxuan Yuan Bei Yu MQ 97 1 0 25 Nov 2024
SoK: A Systems Perspective on Compound AI Threats and Countermeasures Sarbartha Banerjee Prateek Sahu Mulong Luo Anjo Vahldiek-Oberwagner N. Yadwadkar Mohit Tiwari AAML 136 0 0 20 Nov 2024
MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices Mohammadali Shakerdargah Shan Lu Chao Gao Di Niu 166 0 0 20 Nov 2024
Hardware Scaling Trends and Diminishing Returns in Large-Scale Distributed Training Jared Fernandez Luca Wehrstedt Leonid Shamis Mostafa Elhoushi Kalyan Saladi Yonatan Bisk Emma Strubell Jacob Kahn 553 4 0 20 Nov 2024
Running Markov Chain Monte Carlo on Modern Hardware and Software Pavel Sountsov Colin Carroll Matthew D. Hoffman BDL 66 5 0 06 Nov 2024
DP-HLS: A High-Level Synthesis Framework for Accelerating Dynamic Programming Algorithms in Bioinformatics Yingqi Cao Anshu Gupta Jason Liang Yatish Turakhia 31 0 0 05 Nov 2024
Trustworthy Federated Learning: Privacy, Security, and Beyond Chunlu Chen Ji Liu Haowen Tan Xingjian Li Kevin I-Kai Wang Peng Li Kouichi Sakurai Dejing Dou FedML 105 11 0 03 Nov 2024
Revisiting Reliability in Large-Scale Machine Learning Research Clusters Apostolos Kokolis Michael Kuchnik John Hoffman Adithya Kumar Parth Malani Faye Ma Zachary DeVito Siyang Song Kalyan Saladi Carole-Jean Wu 330 9 0 29 Oct 2024
Design Space Exploration of Embedded SoC Architectures for Real-Time Optimal Control Kris Shengjun Dong Dima Nikiforov Widyadewi Soedarmadji Minh Nguyen Christopher Fletcher Y. Shao 50 0 0 16 Oct 2024
Efficiera Residual Networks: Hardware-Friendly Fully Binary Weight with 2-bit Activation Model Achieves Practical ImageNet Accuracy Shuntaro Takahashi Takuya Wakisaka Hiroyuki Tokunaga MQ 73 0 0 15 Oct 2024
MLPerf Power: Benchmarking the Energy Efficiency of Machine Learning Systems from Microwatts to Megawatts for Sustainable AI Arya Tschand Arun Tejusve Raghunath Rajan S. Idgunji Anirban Ghosh J. Holleman ... Rowan Taubitz Sean Zhan Scott Wasson David Kanter Vijay Janapa Reddi 130 3 0 15 Oct 2024
Reducing Data Bottlenecks in Distributed, Heterogeneous Neural Networks Ruhai Lin Rui-Jie Zhu Jason K. Eshraghian 71 1 0 12 Oct 2024
Data Efficiency for Large Recommendation Models Kshitij Jain Jingru Xie Kevin Regan Cheng Chen Jie Han ... Todd Phillips Myles Sussman Matt Troup Angel Yu Jia Zhuo OffRL 51 0 0 08 Oct 2024
RNC: Efficient RRAM-aware NAS and Compilation for DNNs on Resource-Constrained Edge Devices Kam Chi Loong Shihao Han Sishuo Liu Ning Lin Zhongrui Wang 28 0 0 27 Sep 2024
A method of using RSVD in residual calculation of LowBit GEMM Hongyaoxing Gu MQ 99 0 0 27 Sep 2024
QuForge: A Library for Qudits Simulation T. S. Farias Lucas Friedrich Jonas Maziero 93 2 0 26 Sep 2024