Learning to Count Objects in Natural Images for Visual Question Answering

15 February 2018

Papers citing "Learning to Count Objects in Natural Images for Visual Question Answering"

39 / 39 papers shown

Title
Understanding and Mitigating Classification Errors Through Interpretable Token Patterns Michael A. Hedderich Jonas Fischer Dietrich Klakow Jilles Vreeken 18 0 0 18 Nov 2023
Teaching CLIP to Count to Ten Roni Paiss Ariel Ephrat Omer Tov Shiran Zada Inbar Mosseri Michal Irani Tali Dekel VLM CLIP 34 92 0 23 Feb 2023
Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem Yudong Han Liqiang Nie Jianhua Yin Jianlong Wu Yan Yan 26 13 0 24 Jul 2022
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering Yang Ding Jing Yu Bangchang Liu Yue Hu Mingxin Cui Qi Wu 13 62 0 17 Mar 2022
Detecting Human-Object Interactions with Object-Guided Cross-Modal Calibrated Semantics Hangjie Yuan Mang Wang Dong Ni Liangpeng Xu 19 36 0 01 Feb 2022
SA-VQA: Structured Alignment of Visual and Semantic Representations for Visual Question Answering Peixi Xiong Quanzeng You Pei Yu Zicheng Liu Ying Wu 24 5 0 25 Jan 2022
Bilateral Cross-Modality Graph Matching Attention for Feature Fusion in Visual Question Answering Jianjian Cao Xiameng Qin Sanyuan Zhao Jianbing Shen 31 20 0 14 Dec 2021
VQA-MHUG: A Gaze Dataset to Study Multimodal Neural Attention in Visual Question Answering Ekta Sood Fabian Kögel Florian Strohm Prajit Dhar Andreas Bulling 40 19 0 27 Sep 2021
BGT-Net: Bidirectional GRU Transformer Network for Scene Graph Generation Naina Dhingra Florian Ritter A. Kunz 73 37 0 11 Sep 2021
Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation Gengcong Yang Jingyi Zhang Yong Zhang Baoyuan Wu Yujiu Yang 25 67 0 09 Mar 2021
Causal Attention for Vision-Language Tasks Xu Yang Hanwang Zhang Guojun Qi Jianfei Cai CML 28 148 0 05 Mar 2021
Seeing past words: Testing the cross-modal capabilities of pretrained V&L models on counting tasks Letitia Parcalabescu Albert Gatt Anette Frank Iacer Calixto LRM 33 48 0 22 Dec 2020
Open Set Domain Adaptation by Extreme Value Theory Yiming Xu Diego Klabjan VLM 39 3 0 22 Dec 2020
After All, Only The Last Neuron Matters: Comparing Multi-modal Fusion Functions for Scene Graph Generation Mohamed Karim Belaid 31 1 0 09 Nov 2020
Dual ResGCN for Balanced Scene GraphGeneration Jingyi Zhang Yong Zhang Baoyuan Wu Yanbo Fan Fumin Shen Heng Tao Shen 28 12 0 09 Nov 2020
New Ideas and Trends in Deep Multimodal Content Understanding: A Review Wei Chen Weiping Wang Li Liu M. Lew VLM 118 31 0 16 Oct 2020
The Impact of Explanations on AI Competency Prediction in VQA Kamran Alipour Arijit Ray Xiaoyu Lin J. Schulze Yi Yao Giedrius Burachas 27 9 0 02 Jul 2020
MoVie: Revisiting Modulated Convolutions for Visual Counting and Beyond Duy-Kien Nguyen Vedanuj Goswami Xinlei Chen 39 23 0 24 Apr 2020
Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models M. Farazi Salman H. Khan Nick Barnes 23 17 0 20 Jan 2020
In Defense of Grid Features for Visual Question Answering Huaizu Jiang Ishan Misra Marcus Rohrbach Erik Learned-Miller Xinlei Chen OOD ObjD 23 318 0 10 Jan 2020
Explanation vs Attention: A Two-Player Game to Obtain Attention for VQA Badri N. Patro Anupriy Vinay P. Namboodiri AAML FAtt 45 26 0 19 Nov 2019
Probabilistic framework for solving Visual Dialog Badri N. Patro Anupriy Vinay P. Namboodiri BDL 30 13 0 11 Sep 2019
U-CAM: Visual Explanation using Uncertainty based Class Activation Maps Badri N. Patro Mayank Lunayach Shivansh Patel Vinay P. Namboodiri FAtt UQCV 27 76 0 17 Aug 2019
Multimodal Unified Attention Networks for Vision-and-Language Interactions Zhou Yu Yuhao Cui Jun Yu Dacheng Tao Q. Tian 27 38 0 12 Aug 2019
Multi-modality Latent Interaction Network for Visual Question Answering Peng Gao Haoxuan You Zhanpeng Zhang Xiaogang Wang Hongsheng Li 25 82 0 10 Aug 2019
Question-Agnostic Attention for Visual Question Answering M. Farazi Salman H Khan Nick Barnes 13 10 0 09 Aug 2019
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 20 132 0 22 Jul 2019
Deep Modular Co-Attention Networks for Visual Question Answering Zhou Yu Jun Yu Yuhao Cui Dacheng Tao Q. Tian 36 796 0 25 Jun 2019
Answer Them All! Toward Universal Visual Question Answering Models Robik Shrestha Kushal Kafle Christopher Kanan 17 82 0 01 Mar 2019
MUREL: Multimodal Relational Reasoning for Visual Question Answering Rémi Cadène H. Ben-younes Matthieu Cord Nicolas Thome LRM 19 271 0 25 Feb 2019
Dynamic Fusion with Intra- and Inter- Modality Attention Flow for Visual Question Answering Peng Gao Zhengkai Jiang Haoxuan You Pan Lu Steven C. H. Hoi Xiaogang Wang Hongsheng Li AIMat 24 363 0 13 Dec 2018
Auto-Encoding Scene Graphs for Image Captioning Xu Yang Kaihua Tang Hanwang Zhang Jianfei Cai 21 692 0 06 Dec 2018
Counterfactual Critic Multi-Agent Training for Scene Graph Generation Long Chen Hanwang Zhang Jun Xiao Xiangnan He Shiliang Pu Shih-Fu Chang 22 159 0 06 Dec 2018
Explainable and Explicit Visual Reasoning over Scene Graphs Jiaxin Shi Hanwang Zhang Juan-Zi Li OCL 169 230 0 05 Dec 2018
Multi-task Learning of Hierarchical Vision-Language Representation Duy-Kien Nguyen Takayuki Okatani 23 51 0 03 Dec 2018
Interpretable Visual Question Answering by Reasoning on Dependency Trees Qingxing Cao Bailin Li Xiaodan Liang Liang Lin 33 55 0 06 Sep 2018
Learning Conditioned Graph Structures for Interpretable Visual Question Answering Will Norcliffe-Brown Efstathios Vafeias Sarah Parisot GNN 21 236 0 19 Jun 2018
Visual Reasoning by Progressive Module Networks Seung Wook Kim Makarand Tapaswi Sanja Fidler ReLM LRM 30 12 0 06 Jun 2018
Transparency by Design: Closing the Gap Between Performance and Interpretability in Visual Reasoning David Mascharka Philip Tran Ryan Soklaski Arjun Majumdar 36 207 0 14 Mar 2018