Title
On the Convergence of Encoder-only Shallow Transformers Yongtao Wu Fanghui Liu Grigorios G. Chrysos V. Cevher 50 5 0 02 Nov 2023
Towards Evaluating Transfer-based Attacks Systematically, Practically, and Fairly Qizhang Li Yiwen Guo Wangmeng Zuo Hao Chen ELM AAML 57 3 0 02 Nov 2023
Scattering Vision Transformer: Spectral Mixing Matters Badri N. Patro Vijay Srinivas Agneeswaran 44 14 0 02 Nov 2023
Distilling Knowledge from CNN-Transformer Models for Enhanced Human Action Recognition Hamid Ahmadabadi Omid Nejati Manzari Ahmad Ayatollahi 24 7 0 02 Nov 2023
Detecting Out-of-Distribution Through the Lens of Neural Collapse Litian Liu Yao Qin OODD 48 5 0 02 Nov 2023
Battle of the Backbones: A Large-Scale Comparison of Pretrained Models across Computer Vision Tasks Micah Goldblum Hossein Souri Renkun Ni Manli Shu Viraj Prabhu ... Adrien Bardes Judy Hoffman Ramalingam Chellappa Andrew Gordon Wilson Tom Goldstein VLM 83 62 0 30 Oct 2023
ViR: Towards Efficient Vision Retention Backbones Ali Hatamizadeh Michael Ranzinger Shiyi Lan Jose M. Alvarez Sanja Fidler Jan Kautz GNN 22 1 0 30 Oct 2023
FP8-LM: Training FP8 Large Language Models Houwen Peng Kan Wu Yixuan Wei Guoshuai Zhao Yuxiang Yang ... Zheng-Wei Zhang Shuguang Liu Joe Chau Han Hu Peng Cheng MQ 59 40 0 27 Oct 2023
A Self-Supervised Approach to Land Cover Segmentation Charles Moore Dakota Hester 27 0 0 27 Oct 2023
FuXi-Extreme: Improving extreme rainfall and wind forecasts with diffusion model Xiaohui Zhong Lei Chen Jun Liu Chensen Lin Yuan Qi Hao Li AI4Cl 13 18 0 25 Oct 2023
TransPose: 6D Object Pose Estimation with Geometry-Aware Transformer Xiao Lin Deming Wang Guangliang Zhou Chengju Liu Qi Chen 3DPC ViT 32 8 0 25 Oct 2023
Confounder Balancing in Adversarial Domain Adaptation for Pre-Trained Large Models Fine-Tuning Shuoran Jiang Qingcai Chen Yang Xiang Youcheng Pan Xiangping Wu AI4CE 21 0 0 24 Oct 2023
Handling Data Heterogeneity via Architectural Design for Federated Visual Recognition Sara Pieri Jose Renato Restom Samuel Horvath Hisham Cholakkal FedML 27 8 0 23 Oct 2023
P2AT: Pyramid Pooling Axial Transformer for Real-time Semantic Segmentation Mohammed A. M. Elhassan Changjun Zhou Amina Benabid Abuzar B. M. Adam ViT 33 11 0 23 Oct 2023
VcT: Visual change Transformer for Remote Sensing Image Change Detection Bo Jiang Zitian Wang Xixi Wang Ziyan Zhang Lan Chen Tianlin Li Bin Luo ViT 31 39 0 17 Oct 2023
LEMON: Lossless model expansion Yite Wang Jiahao Su Hanlin Lu Cong Xie Tianyi Liu Jianbo Yuan Yanghua Peng Ruoyu Sun Hongxia Yang 17 12 0 12 Oct 2023
Heuristic Vision Pre-Training with Self-Supervised and Supervised Multi-Task Learning Zhiming Qian VLM SSL 22 0 0 11 Oct 2023
Distilling Efficient Vision Transformers from CNNs for Semantic Segmentation Xueye Zheng Yunhao Luo Pengyuan Zhou Lin Wang 35 14 0 11 Oct 2023
NECO: NEural Collapse Based Out-of-distribution detection Mouin Ben Ammar Nacim Belkhir Sebastian Popescu Antoine Manzanera Gianni Franchi OODD 37 18 0 10 Oct 2023
Tackling Data Bias in MUSIC-AVQA: Crafting a Balanced Dataset for Unbiased Question-Answering Xiulong Liu Zhikang Dong Peng Zhang 27 21 0 10 Oct 2023
No Token Left Behind: Efficient Vision Transformer via Dynamic Token Idling Xuwei Xu Changlin Li Yudong Chen Xiaojun Chang Jiajun Liu Sen Wang ViT 21 5 0 09 Oct 2023
Plug n' Play: Channel Shuffle Module for Enhancing Tiny Vision Transformers Xuwei Xu Sen Wang Yudong Chen Jiajun Liu ViT 34 1 0 09 Oct 2023
Low-Resolution Self-Attention for Semantic Segmentation Yu-Huan Wu Shi-Chen Zhang Yun-Hai Liu Le Zhang Xin Zhan Daquan Zhou Jiashi Feng Ming-Ming Cheng Liangli Zhen ViT 45 3 0 08 Oct 2023
CAD Models to Real-World Images: A Practical Approach to Unsupervised Domain Adaptation in Industrial Object Classification Dennis Ritter Mike Hemberger Marc Hönig Volker Stopp Erik Rodner Kristian Hildebrand 37 0 0 07 Oct 2023
GET: Group Event Transformer for Event-Based Vision Yansong Peng Yueyi Zhang Zhiwei Xiong Xiaoyan Sun Feng Wu 52 39 0 04 Oct 2023
Selective Feature Adapter for Dense Vision Transformers XueQing Deng Qi Fan Xiaojie Jin Linjie Yang Peng Wang 37 0 0 03 Oct 2023
CLIPSelf: Vision Transformer Distills Itself for Open-Vocabulary Dense Prediction Size Wu Wenwei Zhang Lumin Xu Sheng Jin Xiangtai Li Wentao Liu Chen Change Loy CLIP VLM 32 69 0 02 Oct 2023
ZeroI2V: Zero-Cost Adaptation of Pre-trained Transformers from Image to Video Xinhao Li Yuhan Zhu Limin Wang VLM 35 8 0 02 Oct 2023
PharmacoNet: Accelerating Large-Scale Virtual Screening by Deep Pharmacophore Modeling Seonghwan Seo Woo Youn Kim 23 4 0 01 Oct 2023
Win-Win: Training High-Resolution Vision Transformers from Two Windows Vincent Leroy Jérôme Revaud Thomas Lucas Philippe Weinzaepfel ViT 42 2 0 01 Oct 2023
IFAST: Weakly Supervised Interpretable Face Anti-spoofing from Single-shot Binocular NIR Images Jiancheng Huang Donghao Zhou Shifeng Chen CVBM 42 2 0 29 Sep 2023
Text-image Alignment for Diffusion-based Perception Neehar Kondapaneni Markus Marks Manuel Knott Rogério Guimarães Pietro Perona VLM DiffM 24 32 0 29 Sep 2023
End-to-End Streaming Video Temporal Action Segmentation with Reinforce Learning Jinrong Zhang Wu Wen Sheng-lan Liu Yunheng Li Qifeng Li Lin Feng 31 0 0 27 Sep 2023
Boosting High Resolution Image Classification with Scaling-up Transformers Yi Wang ViT 6 0 0 26 Sep 2023
Efficient Low-rank Backpropagation for Vision Transformer Adaptation Yuedong Yang Hung-Yueh Chiang Guihong Li Diana Marculescu R. Marculescu 40 9 0 26 Sep 2023
IEBins: Iterative Elastic Bins for Monocular Depth Estimation Shuwei Shao Z. Pei Xingming Wu Zhong Liu Weihai Chen Zhengguo Li MDE 29 47 0 25 Sep 2023
InSpaceType: Reconsider Space Type in Indoor Monocular Depth Estimation Cho-Ying Wu Quankai Gao Chin-Cheng Hsu Te-Lin Wu Jing-Wen Chen Ulrich Neumann MDE 25 4 0 24 Sep 2023
Decision Fusion Network with Perception Fine-tuning for Defect Classification Xiaoheng Jiang Shilong Tian Zhiwen Zhu Yang Lu Hao Liu Li Chen Shupan Li Mingliang Xu 18 1 0 22 Sep 2023
Sentence Attention Blocks for Answer Grounding Seyedalireza Khoshsirat Chandra Kambhamettu 33 8 0 20 Sep 2023
NDDepth: Normal-Distance Assisted Monocular Depth Estimation Shuwei Shao Z. Pei Weihai Chen Xingming Wu Zhengguo Li MDE 22 41 0 19 Sep 2023
HiT: Building Mapping with Hierarchical Transformers Mingming Zhang Qingjie Liu Yunhong Wang ViT 31 6 0 18 Sep 2023
DeepCompass: AI-driven Location-Orientation Synchronization for Navigating Platforms Jihun Lee SP Choi Bumsoo Kang Hyekyoung Seok Hyoungseok Ahn Sanghee Jung 25 0 0 15 Sep 2023
Complex-Valued Neural Networks for Data-Driven Signal Processing and Signal Understanding Josiah W. Smith 23 9 0 14 Sep 2023
CCSPNet-Joint: Efficient Joint Training Method for Traffic Sign Detection Under Extreme Conditions Haoqin Hong Yue Zhou Xiangyu Shu Xianfang Hu ViT 12 3 0 13 Sep 2023
Dynamic Spectrum Mixer for Visual Recognition Zhiqiang Hu Tao Yu 30 3 0 13 Sep 2023
DiffusionEngine: Diffusion Model is Scalable Data Engine for Object Detection Manlin Zhang Jie Wu Yuxi Ren Ming Li Jie Qin Xuefeng Xiao Wei Liu Rui Wang Min Zheng Andy J. Ma DiffM 36 20 0 07 Sep 2023
DeNISE: Deep Networks for Improved Segmentation Edges S. Jyhne Per-Arne Andersen Morten Goodwin Olsen 30 0 0 05 Sep 2023
A survey on efficient vision transformers: algorithms, techniques, and performance benchmarking Lorenzo Papa Paolo Russo Irene Amerini Luping Zhou 33 43 0 05 Sep 2023
RADIO: Reference-Agnostic Dubbing Video Synthesis Dongyeun Lee Chaewon Kim Sangjoon Yu Jaejun Yoo Gyeong-Moon Park VGen DiffM 42 1 0 05 Sep 2023
DAT++: Spatially Dynamic Vision Transformer with Deformable Attention Zhuofan Xia Xuran Pan Shiji Song Li Erran Li Gao Huang ViT 39 25 0 04 Sep 2023