Title
CTRL-F: Pairing Convolution with Transformer for Image Classification via Multi-Level Feature Cross-Attention and Representation Learning Fusion Hosam S. El-Assiouti Hadeer El-Saadawy M. Al-Berry M. Tolba ViT 83 0 0 09 Jul 2024
HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution Xiang Zhang Yulun Zhang Fisher Yu 88 23 0 08 Jul 2024
AMD: Automatic Multi-step Distillation of Large-scale Vision Models Cheng Han Qifan Wang S. Dianat Majid Rabbani Raghuveer M. Rao Yi Fang Qiang Guan Lifu Huang Dongfang Liu VLM 75 5 0 05 Jul 2024
Semantically Guided Representation Learning For Action Anticipation Anxhelo Diko D. Avola Bardh Prenkaj Federico Fontana Luigi Cinque AI4TS 59 3 0 02 Jul 2024
Vision Mamba-based autonomous crack segmentation on concrete, asphalt, and masonry surfaces Zhaohui Chen Elyas Asadi Shamsabadi Sheng Jiang Luming Shen Daniel Dias-da-Costa Mamba 73 4 0 24 Jun 2024
Rethinking Remote Sensing Change Detection With A Mask View Xiaowen Ma Zhenkai Wu Rongrong Lian Wei Zhang Siyang Song 70 3 0 21 Jun 2024
Is AI fun? HumorDB: a curated dataset and benchmark to investigate graphical humor Veedant Jain Felipe dos Santos Alves Feitosa Gabriel Kreiman VLM 97 2 0 19 Jun 2024
ChangeViT: Unleashing Plain Vision Transformers for Change Detection Duowang Zhu Xiaohu Huang Haiyan Huang Zhenfeng Shao Q. Cheng 77 9 0 18 Jun 2024
Demonstrating Agile Flight from Pixels without State Estimation Ismail Geles L. Bauersfeld Angel Romero Jiaxu Xing Davide Scaramuzza 90 23 0 18 Jun 2024
Is Your HD Map Constructor Reliable under Sensor Corruptions? Xiaoshuai Hao Mengchuan Wei Yifan Yang Haimei Zhao Hui Zhang Yi Zhou Qiang Wang Weiming Li Lingdong Kong Jing Zhang 3DV 107 9 0 18 Jun 2024
HyperSIGMA: Hyperspectral Intelligence Comprehension Foundation Model Di Wang Meiqi Hu Yao Jin Yuchun Miao Jiaqi Yang ... Lefei Zhang Chen Wu Di Lin Dacheng Tao Liangpei Zhang 155 27 0 17 Jun 2024
ALGM: Adaptive Local-then-Global Token Merging for Efficient Semantic Segmentation with Plain Vision Transformers Narges Norouzi Svetlana Orlova Daan de Geus Gijs Dubbelman ViT FedML 71 5 0 14 Jun 2024
LieRE: Lie Rotational Positional Encodings Sophie Ostmeier Brian Axelrod Michael E. Moseley Akshay S. Chaudhari Akshay Chaudhari C. Langlotz 88 0 0 14 Jun 2024
Depth Anything V2 Lihe Yang Bingyi Kang Zilong Huang Zhen Zhao Xiaogang Xu Jiashi Feng Hengshuang Zhao DiffM VLM MDE 125 434 0 13 Jun 2024
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms Miaosen Zhang Yixuan Wei Zhen Xing Yifei Ma Zuxuan Wu ... Zheng Zhang Qi Dai Chong Luo Xin Geng Baining Guo VLM 84 1 0 13 Jun 2024
Unveiling Incomplete Modality Brain Tumor Segmentation: Leveraging Masked Predicted Auto-Encoder and Divergence Learning Zhongao Sun Jiameng Li Yuhan Wang Jiarong Cheng Qing Zhou Chun Li MedIm 100 0 0 12 Jun 2024
ProTrain: Efficient LLM Training via Memory-Aware Techniques Hanmei Yang Jin Zhou Yao Fu Xiaoqun Wang Ramine Roane Hui Guan Tongping Liu VLM 83 1 0 12 Jun 2024
AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer Yitao Xu Tong Zhang Sabine Süsstrunk ViT 86 1 0 12 Jun 2024
A Robust Pipeline for Classification and Detection of Bleeding Frames in Wireless Capsule Endoscopy using Swin Transformer and RT-DETR Sasidhar Alavala Anil Kumar Vadde Aparnamala Kancheti Subrahmanyam Gorthi ViT MedIm 28 2 0 12 Jun 2024
Towards Fundamentally Scalable Model Selection: Asymptotically Fast Update and Selection Wenxiao Wang Weiming Zhuang Lingjuan Lyu 97 0 0 11 Jun 2024
ReduceFormer: Attention with Tensor Reduction by Summation John Yang Le An Su Inn Park 92 0 0 11 Jun 2024
A Semantic-Aware and Multi-Guided Network for Infrared-Visible Image Fusion Xiaoli Zhang Liying Wang Libo Zhao Xiongfei Li Siwei Ma 134 0 0 11 Jun 2024
Multiplane Prior Guided Few-Shot Aerial Scene Rendering Zihan Gao Licheng Jiao Lingling Li Xu Liu Fan Liu Puhua Chen Yuwei Guo 90 3 0 07 Jun 2024
Sim-to-Real Transfer of Deep Reinforcement Learning Agents for Online Coverage Path Planning Arvi Jonnarth Ola Johansson Michael Felsberg OffRL 123 1 0 07 Jun 2024
PALM: A Efficient Performance Simulator for Tiled Accelerators with Large-scale Model Training Jiahao Fang Huizheng Wang Qize Yang Dehao Kong Xu Dai Jinyi Deng Yang Hu Shouyi Yin 57 1 0 06 Jun 2024
OCCAM: Towards Cost-Efficient and Accuracy-Aware Classification Inference Dujian Ding Bicheng Xu L. Lakshmanan VLM 114 2 0 06 Jun 2024
LADI v2: Multi-label Dataset and Classifiers for Low-Altitude Disaster Imagery Samuel Scheele Katherine Picchione Jeffrey Liu 42 0 0 04 Jun 2024
Generative Active Learning for Long-tailed Instance Segmentation Muzhi Zhu Chengxiang Fan Hao Chen Yongxu Liu Weian Mao Xiaogang Xu Chunhua Shen 95 5 0 04 Jun 2024
GrootVL: Tree Topology is All You Need in State Space Model Yicheng Xiao Lin Song Shaoli Huang Jiangshan Wang Siyu Song Yixiao Ge Xiu Li Ying Shan Mamba 114 13 0 04 Jun 2024
Prototypical Transformer as Unified Motion Learners Cheng Han Yawen Lu Guohao Sun James Liang Zhiwen Cao ... S. Dianat Raghuveer M. Rao Tong Geng Zhiqiang Tao Dongfang Liu ViT 88 3 0 03 Jun 2024
On the Use of Anchoring for Training Vision Models V. Narayanaswamy Kowshik Thopalli Rushil Anirudh Yamen Mubarka W. Sakla Jayaraman J. Thiagarajan 95 0 0 01 Jun 2024
You Only Need Less Attention at Each Stage in Vision Transformers Shuoxi Zhang Hanpeng Liu Stephen Lin Kun He 81 5 0 01 Jun 2024
DS@BioMed at ImageCLEFmedical Caption 2024: Enhanced Attention Mechanisms in Medical Caption Generation through Concept Detection Integration Nhi Ngoc-Yen Nguyen Le-Huy Tu Dieu-Phuong Nguyen Nhat-Tan Do Minh Triet Thai Bao-Thien Nguyen-Tat MedIm 77 2 0 01 Jun 2024
CapeX: Category-Agnostic Pose Estimation from Textual Point Explanation M. Rusanovsky Or Hirschorn S. Avidan 71 3 0 01 Jun 2024
YotoR-You Only Transform One Representation José Ignacio Díaz Villa P. Loncomilla Javier Ruiz-del-Solar ViT 64 1 0 30 May 2024
FocSAM: Delving Deeply into Focused Objects in Segmenting Anything You Huang Zongyu Lan Liujuan Cao Xianming Lin Shengchuan Zhang Guannan Jiang Rongrong Ji VLM 51 2 0 29 May 2024
Wavelet-Based Image Tokenizer for Vision Transformers Zhenhai Zhu Radu Soricut ViT 102 5 0 28 May 2024
ViG: Linear-complexity Visual Sequence Learning with Gated Linear Attention Bencheng Liao Xinggang Wang Lianghui Zhu Qian Zhang Chang Huang 111 4 0 28 May 2024
On Fairness of Low-Rank Adaptation of Large Models Zhoujie Ding Ken Ziyu Liu Pura Peetathawatchai Berivan Isik Sanmi Koyejo 81 5 0 27 May 2024
Building Vision Models upon Heat Conduction Zhaozhi Wang Yue Liu Yunfan Liu Hongtian Yu Yaowei Wang QiXiang Ye ViT VLM 102 0 0 26 May 2024
ModelLock: Locking Your Model With a Spell Yifeng Gao Yuhua Sun Xingjun Ma Zuxuan Wu Yu-Gang Jiang VLM 86 1 0 25 May 2024
Free Performance Gain from Mixing Multiple Partially Labeled Samples in Multi-label Image Classification Chak Fong Chong Jielong Guo Xu Yang Wei Ke Yapeng Wang VLM 85 0 0 24 May 2024
Sparse-Tuning: Adapting Vision Transformers with Efficient Fine-tuning and Inference Ting Liu Xuyang Liu Liangtao Shi Zunnan Xu Siteng Huang Yi Xin Quanjun Yin 83 8 0 23 May 2024
ArchesWeather: An efficient AI weather forecasting model at 1.5° resolution Guillaume Couairon Christian Lessig A. Charantonis C. Monteleoni 63 2 0 23 May 2024
Scalable Visual State Space Model with Fractal Scanning Lv Tang Haoke Xiao Peng-Tao Jiang Hao Zhang Jinwei Chen Yue Liu Mamba 90 8 0 23 May 2024
Multi-Scale VMamba: Hierarchy in Hierarchy Visual State Space Model Yuheng Shi Minjing Dong Chang Xu Mamba 107 36 0 23 May 2024
Configuring Data Augmentations to Reduce Variance Shift in Positional Embedding of Vision Transformers Bum Jun Kim Sang Woo Kim ViT 61 1 0 23 May 2024
LookHere: Vision Transformers with Directed Attention Generalize and Extrapolate A. Fuller Daniel G. Kyrollos Yousef Yassin James R. Green 106 3 0 22 May 2024
Counterfactual Gradients-based Quantification of Prediction Trust in Neural Networks Mohit Prabhushankar Ghassan AlRegib UQCV 77 0 0 22 May 2024
OpenCarbonEval: A Unified Carbon Emission Estimation Framework in Large-Scale AI Models Zhaojian Yu Yinghao Wu Zhuotao Deng Yansong Tang Xiao-Ping Zhang 77 2 0 21 May 2024