Stacked Attention Networks for Image Question Answering

7 November 2015

Li Deng

Papers citing "Stacked Attention Networks for Image Question Answering"

50 / 275 papers shown

Title
Structure-Aware Human Body Reshaping with Adaptive Affinity-Graph Network Qiwen Deng Yangcen Liu Wen Li Guoqing Wang 3DH 103 0 0 28 Jan 2025
Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering Qian Tao Xiaoyang Fan Yong Xu Xingquan Zhu Yufei Tang 50 0 0 22 Jan 2025
Overcoming Language Priors for Visual Question Answering Based on Knowledge Distillation Daowan Peng Wei Wei 175 0 0 10 Jan 2025
Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios Shantanu Jaiswal Debaditya Roy Basura Fernando Cheston Tan ReLM LRM 79 2 0 20 Nov 2024
Efficient Bilinear Attention-based Fusion for Medical Visual Question Answering Zhilin Zhang Jie Wang Zhanghao Qin Ruiqi Zhu Xiaoliang Gong MedIm 54 0 0 28 Oct 2024
LaPA: Latent Prompt Assist Model For Medical Visual Question Answering Tiancheng Gu Kaicheng Yang Dongnan Liu Weidong Cai MedIm 41 2 0 19 Apr 2024
UniDCP: Unifying Multiple Medical Vision-language Tasks via Dynamic Cross-modal Learnable Prompts Chenlu Zhan Yufei Zhang Yu Lin Gaoang Wang Hongwei Wang VLM MedIm 40 5 0 18 Dec 2023
ResNLS: An Improved Model for Stock Price Forecasting Yuanzhe Jia Ali Anaissi Basem Suleiman AI4TS AIFin 49 3 0 02 Dec 2023
The curse of language biases in remote sensing VQA: the role of spatial attributes, language diversity, and the need for clear evaluation Christel Chappuis Eliot Walt Vincent Mendez Sylvain Lobry B. L. Saux D. Tuia 31 3 0 28 Nov 2023
LOIS: Looking Out of Instance Semantics for Visual Question Answering Siyu Zhang Ye Chen Yaoru Sun Fang Wang Haibo Shi Haoran Wang 25 4 0 26 Jul 2023
EAML: Ensemble Self-Attention-based Mutual Learning Network for Document Image Classification Souhail Bakkali Zuheng Ming Mickael Coustaty Marçal Rusiñol 10 6 0 11 May 2023
Towards Medical Artificial General Intelligence via Knowledge-Enhanced Multimodal Pretraining Bingqian Lin Zicong Chen Mingjie Li Haokun Lin Hang Xu ... Ling-Hao Chen Xiaojun Chang Yi Yang L. Xing Xiaodan Liang LM&MA MedIm AI4CE 40 14 0 26 Apr 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Peng Gao Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Hongsheng Li Yu Qiao MLLM 74 745 0 28 Mar 2023
Top-Down Visual Attention from Analysis by Synthesis Baifeng Shi Trevor Darrell Xin Eric Wang 25 29 0 23 Mar 2023
UnICLAM:Contrastive Representation Learning with Adversarial Masking for Unified and Interpretable Medical Vision Question Answering Chenlu Zhan Peng Peng Hongsen Wang Tao Chen Hongwei Wang MedIm 23 3 0 21 Dec 2022
Smart Agriculture : A Novel Multilevel Approach for Agricultural Risk Assessment over Unstructured Data Hasna Najmi M. Mikram Maryem Rhanoui Siham Yousfi 19 0 0 22 Nov 2022
Cross-Modal Contrastive Learning for Robust Reasoning in VQA Qinjie Zheng Chaoyue Wang Daqing Liu Dadong Wang Dacheng Tao LRM 32 0 0 21 Nov 2022
AlignVE: Visual Entailment Recognition Based on Alignment Relations Biwei Cao Jiuxin Cao Jie Gui Jiayun Shen Bo Liu Lei He Yuan Yan Tang James T. Kwok 26 7 0 16 Nov 2022
MapQA: A Dataset for Question Answering on Choropleth Maps Shuaichen Chang David Palzer Jialin Li Eric Fosler-Lussier N. Xiao 19 40 0 15 Nov 2022
Composed Image Retrieval with Text Feedback via Multi-grained Uncertainty Regularization Yiyang Chen Zhedong Zheng Wei Ji Leigang Qu Tat-Seng Chua 32 37 0 14 Nov 2022
On the Explainability of Natural Language Processing Deep Models Julia El Zini M. Awad 29 82 0 13 Oct 2022
Towards Robust Visual Question Answering: Making the Most of Biased Samples via Contrastive Learning Q. Si Yuanxin Liu Fandong Meng Zheng Lin Peng Fu Yanan Cao Weiping Wang Jie Zhou 37 23 0 10 Oct 2022
MMKGR: Multi-hop Multi-modal Knowledge Graph Reasoning Shangfei Zheng Weiqing Wang Jianfeng Qu Hongzhi Yin Wei Chen Lei Zhao LRM 21 22 0 03 Sep 2022
Multi-Attention Network for Compressed Video Referring Object Segmentation Weidong Chen Dexiang Hong Yuankai Qi Zhenjun Han Shuhui Wang Laiyun Qing Qingming Huang Guorong Li VOS 20 35 0 26 Jul 2022
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem Yudong Han Liqiang Nie Jianhua Yin Jianlong Wu Yan Yan 26 13 0 24 Jul 2022
Explicit Image Caption Editing Zhen Wang Long Chen Wenbo Ma G. Han Yulei Niu Jian Shao Jun Xiao 25 12 0 20 Jul 2022
From Pixels to Objects: Cubic Visual Attention for Visual Question Answering Jingkuan Song Pengpeng Zeng Lianli Gao Heng Tao Shen 32 62 0 04 Jun 2022
Structured Two-stream Attention Network for Video Question Answering Lianli Gao Pengpeng Zeng Jingkuan Song Yuan-Fang Li Wu Liu Tao Mei Heng Tao Shen 43 68 0 02 Jun 2022
Fine-Grained Visual Classification using Self Assessment Classifier Tuong Khanh Long Do Huy Tran Erman Tjiputra Quang-Dieu Tran Anh Nguyen 37 12 0 21 May 2022
Learning to Answer Visual Questions from Web Videos Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid ViT 37 33 0 10 May 2022
Attention Mechanism in Neural Networks: Where it Comes and Where it Goes Derya Soydaner 3DV 44 149 0 27 Apr 2022
CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata LRM NAI 33 20 0 05 Apr 2022
Co-VQA : Answering by Interactive Sub Question Sequence Ruonan Wang Yuxi Qian Fangxiang Feng Xiaojie Wang Huixing Jiang LRM 26 16 0 02 Apr 2022
A General Survey on Attention Mechanisms in Deep Learning Gianni Brauwers Flavius Frasincar 31 296 0 27 Mar 2022
CNN Attention Guidance for Improved Orthopedics Radiographic Fracture Classification Zhibin Liao Kewen Liao Haifeng Shen M. F. van Boxel J. Prijs R. Jaarsma J. Doornberg Anton Van Den Hengel Johan W. Verjans 25 14 0 21 Mar 2022
Dynamic MLP for Fine-Grained Image Classification by Leveraging Geographical and Temporal Information Lingfeng Yang Xiang Li Renjie Song Borui Zhao J. Tao Shihao Zhou Jiajun Liang Jian Yang 26 37 0 07 Mar 2022
Recent, rapid advancement in visual question answering architecture: a review V. Kodali Daniel Berleant 40 9 0 02 Mar 2022
Measuring CLEVRness: Blackbox testing of Visual Reasoning Models Spyridon Mouselinos Henryk Michalewski Mateusz Malinowski 21 3 0 24 Feb 2022
When Did It Happen? Duration-informed Temporal Localization of Narrated Actions in Vlogs Oana Ignat Santiago Castro Yuhang Zhou Jiajun Bao Dandan Shan Rada Mihalcea 18 3 0 16 Feb 2022
NEWSKVQA: Knowledge-Aware News Video Question Answering Pranay Gupta Manish Gupta 27 7 0 08 Feb 2022
Deep Learning Approaches on Image Captioning: A Review Taraneh Ghandi H. Pourreza H. Mahyar VLM 25 89 0 31 Jan 2022
On the Efficacy of Co-Attention Transformer Layers in Visual Question Answering Ankur Sikarwar Gabriel Kreiman ViT 21 1 0 11 Jan 2022
Glance and Focus Networks for Dynamic Visual Recognition Gao Huang Yulin Wang Kangchen Lv Haojun Jiang Wenhui Huang Pengfei Qi S. Song 3DH 79 49 0 09 Jan 2022
Does CLIP Benefit Visual Question Answering in the Medical Domain as Much as it Does in the General Domain? Sedigheh Eslami Gerard de Melo Christoph Meinel CLIP MedIm 18 116 0 27 Dec 2021
3D Question Answering Shuquan Ye Dongdong Chen Songfang Han Jing Liao ViT 26 47 0 15 Dec 2021
Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in Visual Question Answering Jianjian Cao Xiameng Qin Sanyuan Zhao Jianbing Shen 31 20 0 14 Dec 2021
Neural Attention for Image Captioning: Review of Outstanding Methods Zanyar Zohourianshahzadi Jugal Kalita VLM 35 45 0 29 Nov 2021
Classification-Regression for Chart Comprehension Matan Levy Rami Ben-Ari Dani Lischinski 28 15 0 29 Nov 2021
Achieving Human Parity on Visual Question Answering Ming Yan Haiyang Xu Chenliang Li Junfeng Tian Bin Bi ... Ji Zhang Songfang Huang Fei Huang Luo Si Rong Jin 32 12 0 17 Nov 2021
Language bias in Visual Question Answering: A Survey and Taxonomy Desen Yuan 30 12 0 16 Nov 2021