v1v2 (latest)

SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning

17 November 2016

Wei Liu

Papers citing "SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning"

50 / 435 papers shown

Title
Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models Ying Yang Jie Zhang Xiao Lv Di Lin Tao Xiang Qing Guo AAML VLM 40 0 0 30 May 2025
Group-based Distinctive Image Captioning with Memory Difference Encoding and Attention Jiuniu Wang Wenjia Xu Qingzhong Wang Antoni B. Chan 181 0 0 03 Apr 2025
DCAT: Dual Cross-Attention Fusion for Disease Classification in Radiological Images with Uncertainty Estimation Jutika Borah H. Singh MedIm 170 0 0 14 Mar 2025
Deepfake Detection with Spatio-Temporal Consistency and Attention Yunzhuo Chen Naveed Akhtar Nur Al Hasan Haldar Ajmal Mian 210 4 0 12 Feb 2025
Multi-Modal interpretable automatic video captioning Antoine Hanna-Asaad Decky Aspandi Titus Zaharia 72 0 0 11 Nov 2024
HASN: Hybrid Attention Separable Network for Efficient Image Super-resolution Weifeng Cao Xiaoyan Lei Jun Shi Wanyong Liang Jie Liu Zongfei Bai SupR 90 1 0 13 Oct 2024
BA-Net: Bridge Attention in Deep Neural Networks Ronghui Zhang Runzong Zou Yue Zhao Zirui Zhang Junzhou Chen Yue Cao Chuan Hu Houbing Song 62 1 0 10 Oct 2024
Task-Aware Dynamic Transformer for Efficient Arbitrary-Scale Image Super-Resolution Tianyi Xu Yiji Zhou Xiaotao Hu Kai Zhang Anran Zhang Xingye Qiu Jun Xu 71 0 0 16 Aug 2024
Surveying the Landscape of Image Captioning Evaluation: A Comprehensive Taxonomy, Trends and Metrics Analysis Uri Berger Gabriel Stanovsky Omri Abend Lea Frermann 75 0 0 09 Aug 2024
An Explainable Non-local Network for COVID-19 Diagnosis Jingfu Yang Peng Huang Jing Hu Shu Hu Siwei Lyu Xin Wang Jun Guo Xi Wu 91 2 0 08 Aug 2024
GSO-YOLO: Global Stability Optimization YOLO for Construction Site Detection Yuming Zhang Dongzhi Guan Shouxin Zhang Junhao Su Yunzhi Han Jiabin Liu 46 3 0 01 Jul 2024
Multi-Aperture Fusion of Transformer-Convolutional Network (MFTC-Net) for 3D Medical Image Segmentation and Visualization Siyavash Shabani Muhammad Sohaib Sahar A. Mohammed Bahram Parvin ViT MedIm 88 3 0 24 Jun 2024
Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey Hao Yang Yanyan Zhao Yang Wu Shilong Wang Tian Zheng Hongbo Zhang Zongyang Ma Wanxiang Che Bing Qin 133 14 0 12 Jun 2024
Continuum Attention for Neural Operators Edoardo Calvello Nikola B. Kovachki Matthew E. Levine Andrew M. Stuart 97 11 0 10 Jun 2024
Faithful Attention Explainer: Verbalizing Decisions Based on Discriminative Features Yao Rong David Scheerer Enkelejda Kasneci 82 0 0 16 May 2024
EMCAD: Efficient Multi-scale Convolutional Attention Decoding for Medical Image Segmentation Md Mostafijur Rahman Mustafa Munir R. Marculescu MedIm 127 54 0 11 May 2024
DVMSR: Distillated Vision Mamba for Efficient Super-Resolution Xiaoyan Lei Wenlong Zhang Weifeng Cao 99 16 0 05 May 2024
Socialized Learning: A Survey of the Paradigm Shift for Edge Intelligence in Networked Systems Xiaofei Wang Yunfeng Zhao Chao Qiu Qinghua Hu Victor C. M. Leung 89 7 0 20 Apr 2024
Partial Large Kernel CNNs for Efficient Super-Resolution Dongheon Lee Seokju Yun Youngmin Ro SupR 85 1 0 18 Apr 2024
FoundationGrasp: Generalizable Task-Oriented Grasping with Foundation Models Chao Tang Dehao Huang Wenlong Dong Ruinian Xu Kuanqi Cai 94 13 0 16 Apr 2024
Enhancing Efficiency in Vision Transformer Networks: Design Techniques and Insights Moein Heidari Reza Azad Sina Ghorbani Kolahi René Arimond Leon Niggemeier ... Afshin Bozorgpour Ehsan Khodapanah Aghdam Amirhossein Kazerouni Ilker Hacihaliloglu Dorit Merhof 97 7 0 28 Mar 2024
How to Understand Named Entities: Using Common Sense for News Captioning Ning Xu Yanhui Wang Tingting Zhang Hongshuo Tian Mohan Kankanhalli An-An Liu 63 0 0 11 Mar 2024
Mamba-ND: Selective State Space Modeling for Multi-Dimensional Data Shufan Li Harkanwar Singh Aditya Grover Mamba 179 64 0 08 Feb 2024
Deep Learning-based Image and Video Inpainting: A Survey Weize Quan Jiaxi Chen Yanli Liu Dong-Ming Yan Peter Wonka 3DV 78 40 0 07 Jan 2024
Hierarchical Graph Pattern Understanding for Zero-Shot VOS Gensheng Pei Fumin Shen Yazhou Yao Tao Chen Xian-Sheng Hua Jikang Cheng VOS 71 3 0 15 Dec 2023
A Multi-scale Information Integration Framework for Infrared and Visible Image Fusion Guang Yang Jie Li Hanxiao Lei Xinbo Gao 70 20 0 07 Dec 2023
DECap: Towards Generalized Explicit Caption Editing via Diffusion Mechanism Zhen Wang Xinyun Jiang Jun Xiao Tao Chen Long Chen DiffM 54 1 0 25 Nov 2023
CompenHR: Efficient Full Compensation for High-resolution Projector Yuxi Wang H. Ling Bingyao Huang 3DV 61 4 0 22 Nov 2023
The Heat is On: Thermal Facial Landmark Tracking James Baker CVBM 42 0 0 14 Nov 2023
FIRST: A Million-Entry Dataset for Text-Driven Fashion Synthesis and Design Zhen Huang Yihao Li Dong Pei Jiapeng Zhou Xuliang Ning Jianlin Han Xiaoguang Han Xuejun Chen 96 3 0 13 Nov 2023
Contactless Fingerprint Biometric Anti-Spoofing: An Unsupervised Deep Learning Approach Banafsheh Adami Nima Karimian AAML 52 5 0 07 Nov 2023
G-CASCADE: Efficient Cascaded Graph Convolutional Decoding for 2D Medical Image Segmentation Md Mostafijur Rahman R. Marculescu MedIm 72 40 0 24 Oct 2023
Large Separable Kernel Attention: Rethinking the Large Kernel Attention Design in CNN Kin Wai Lau L. Po Yasar Abbas Ur Rehman VLM 66 230 0 04 Sep 2023
CgT-GAN: CLIP-guided Text GAN for Image Captioning Jiarui Yu Haoran Li Y. Hao B. Zhu Tong Xu Xiangnan He VLM CLIP 72 13 0 23 Aug 2023
SCSC: Spatial Cross-scale Convolution Module to Strengthen both CNNs and Transformers Xijun Wang Xiaojie Chu Chunrui Han Xiangyu Zhang ViT 60 1 0 14 Aug 2023
Channel-Wise Contrastive Learning for Learning with Noisy Labels Hui-Sung Kang Sheng Liu Huaxi Huang Tongliang Liu NoLa 87 0 0 14 Aug 2023
Enhancing Nucleus Segmentation with HARU-Net: A Hybrid Attention Based Residual U-Blocks Network Junzhou Chen Qian Huang Yuling Chen Linyi Qian Che-Sheng Yu 44 2 0 07 Aug 2023
Dual Aggregation Transformer for Image Super-Resolution Zheng Chen Yulun Zhang Jinjin Gu Lingyu Kong Xiaokang Yang Feng Yu ViT 95 189 0 07 Aug 2023
Transferable Decoding with Visual Entities for Zero-Shot Image Captioning Junjie Fei Teng Wang Jinrui Zhang Zhenyu He Chengjie Wang Feng Zheng VLM 84 36 0 31 Jul 2023
Class Attention to Regions of Lesion for Imbalanced Medical Image Recognition Jia-Xin Zhuang Jiabin Cai Jianguo Zhang Wei-Shi Zheng Ruixuan Wang 48 11 0 19 Jul 2023
Self-Supervised Image Captioning with CLIP Chuanyang Jin VLM SSL 88 2 0 26 Jun 2023
Improving Reference-based Distinctive Image Captioning with Contrastive Rewards Yangjun Mao Jun Xiao Dong Zhang Meng Cao Jian Shao Yueting Zhuang Long Chen EGVM 76 9 0 25 Jun 2023
Focus for Free in Density-Based Counting Zenglin Shi Pascal Mettes Cees G. M. Snoek 3DPC 69 9 0 08 Jun 2023
Contextual Object Detection with Multimodal Large Language Models Yuhang Zang Wei Li Jun Han Kaiyang Zhou Chen Change Loy ObjD VLM MLLM 118 88 0 29 May 2023
Attention Mechanisms in Medical Image Segmentation: A Survey Yutong Xie Bing Yang Qi Guan Jianpeng Zhang Qi Wu Yong-quan Xia ViT MedIm 85 19 0 29 May 2023
Efficient Multi-Scale Attention Module with Cross-Spatial Learning Daliang Ouyang Su He Jian Zhan M.L. Luo Huaiyong Guo Guo-Liang Zhang Zhijie Huang 95 606 0 23 May 2023
Learning Personalized Page Content Ranking Using Customer Representation Xin Shen Yan Zhao Sujan Perera Yujia Liu Jinyun Yan Mitchell Goodman BDL 60 9 0 09 May 2023
From Association to Generation: Text-only Captioning by Unsupervised Cross-modal Mapping Junyan Wang Ming Yan Yi Zhang Jitao Sang CLIP VLM 74 9 0 26 Apr 2023
Co-attention Propagation Network for Zero-Shot Video Object Segmentation Gensheng Pei Yazhou Yao Fumin Shen Daniel Huang Xing-Rui Huang Hengtao Shen VOS 91 12 0 08 Apr 2023
SARGAN: Spatial Attention-based Residuals for Facial Expression Manipulation Arbish Akram Nazar Khan GAN CVBM 120 10 0 30 Mar 2023