v1v2v3 (latest)

Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

25 July 2017

Lei Zhang

Papers citing "Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering"

50 / 1,868 papers shown

Title
Thinking Like an Expert:Multimodal Hypergraph-of-Thought (HoT) Reasoning to boost Foundation Modals Fanglong Yao Changyuan Tian Jintao Liu Zequn Zhang Qing Liu Li Jin Shuchao Li Xiaoyu Li Xian Sun ReLM LRM 74 17 0 11 Aug 2023
IIHT: Medical Report Generation with Image-to-Indicator Hierarchical Transformer Keqi Fan Xiaohao Cai M. Niranjan MedIm ViT 48 4 0 10 Aug 2023
Informative Scene Graph Generation via Debiasing Lianli Gao Xinyu Lyu Yuyu Guo Yuxuan Hu Yuanyou Li Lu Xu Hengtao Shen Jingkuan Song 63 5 0 10 Aug 2023
Your Negative May not Be True Negative: Boosting Image-Text Matching with False Negative Elimination Haoxuan Li Yi Bin Junrong Liao Yang Yang Heng Tao Shen 91 31 0 08 Aug 2023
Hierarchical Visual Primitive Experts for Compositional Zero-Shot Learning Haksub Kim Jiyoung Lee S. Park Kwanghoon Sohn CoGe 92 11 0 08 Aug 2023
A Comprehensive Analysis of Real-World Image Captioning and Scene Identification Sai Suprabhanu Nallapaneni Subrahmanyam Konakanchi 66 2 0 05 Aug 2023
ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with Unpaired Stylistic Corpora Ka Leong Cheng Zheng Ma Shi Zong Jianbing Zhang Xinyu Dai Jiajun Chen DiffM 65 3 0 02 Aug 2023
Beyond Generic: Enhancing Image Captioning with Real-World Knowledge using Vision-Language Pre-Training Model Ka Leong Cheng Wenpo Song Zheng Ma Wenhao Zhu Zi-Yue Zhu Jianbing Zhang CLIP VLM 65 11 0 02 Aug 2023
EEG-based Cognitive Load Classification using Feature Masked Autoencoding and Emotion Transfer Learning Dustin Pulver Prithila Angkan Paul Hungler Ali Etemad 84 5 0 01 Aug 2023
Transferable Decoding with Visual Entities for Zero-Shot Image Captioning Junjie Fei Teng Wang Jinrui Zhang Zhenyu He Chengjie Wang Feng Zheng VLM 84 36 0 31 Jul 2023
LOIS: Looking Out of Instance Semantics for Visual Question Answering Siyu Zhang Ye Chen Yaoru Sun Fang Wang Haibo Shi Haoran Wang 57 5 0 26 Jul 2023
Enhancing image captioning with depth information using a Transformer-based framework Aya Mahmoud Ahmed Mohamed Yousef K. Hussain Yousef B. Mahdy ViT 62 4 0 24 Jul 2023
GridMM: Grid Memory Map for Vision-and-Language Navigation Zihan Wang Xiangyang Li Jiahao Yang Yeqi Liu Shuqiang Jiang 109 60 0 24 Jul 2023
Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework Jingxuan Wei Cheng Tan Zhangyang Gao Linzhuang Sun Siyuan Li Bihui Yu R. Guo Stan Z. Li LRM 120 12 0 24 Jul 2023
Learning Vision-and-Language Navigation from YouTube Videos Kun-Li Channing Lin Peihao Chen Di Huang Thomas H. Li Mingkui Tan Chuang Gan LM&Ro 95 27 0 22 Jul 2023
Robust Visual Question Answering: Datasets, Methods, and Future Challenges Jie Ma Pinghui Wang Dechen Kong Zewei Wang Jun Liu Hongbin Pei Junzhou Zhao OOD 126 23 0 21 Jul 2023
Divert More Attention to Vision-Language Object Tracking Mingzhe Guo Zhipeng Zhang Li Jing Haibin Ling Heng Fan VLM 95 6 0 19 Jul 2023
Embedded Heterogeneous Attention Transformer for Cross-lingual Image Captioning Zijie Song Zhenzhen Hu Yuanen Zhou Ye Zhao Richang Hong Meng Wang 55 3 0 19 Jul 2023
A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future Chaoyang Zhu Long Chen ObjD VLM 138 40 0 18 Jul 2023
PAT: Parallel Attention Transformer for Visual Question Answering in Vietnamese Nghia Hieu Nguyen Kiet Van Nguyen 42 2 0 17 Jul 2023
Bootstrapping Vision-Language Learning with Decoupled Language Pre-training Yiren Jian Chongyang Gao Soroush Vosoughi VLM MLLM 98 31 0 13 Jul 2023
GVCCI: Lifelong Learning of Visual Grounding for Language-Guided Robotic Manipulation Junghyun Kim Gi-Cheon Kang Jaein Kim Suyeon Shin Byoung-Tak Zhang LM&Ro 82 7 0 12 Jul 2023
Reading Radiology Imaging Like The Radiologist Yuhao Wang MedIm 80 0 0 12 Jul 2023
Structure Guided Multi-modal Pre-trained Transformer for Knowledge Graph Reasoning K. Liang Sihang Zhou Yue Liu Lingyuan Meng Meng Liu Xinwang Liu 105 16 0 06 Jul 2023
CFSum: A Coarse-to-Fine Contribution Network for Multimodal Summarization Min Xiao Junnan Zhu Haitao Lin Yu Zhou Chengqing Zong 69 10 0 06 Jul 2023
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding Rui Sun Zhecan Wang Haoxuan You Noel Codella Kai-Wei Chang Shih-Fu Chang CLIP 105 4 0 03 Jul 2023
Multimodal Prompt Retrieval for Generative Visual Question Answering Timothy Ossowski Junjie Hu 33 1 0 30 Jun 2023
Multi-source Semantic Graph-based Multimodal Sarcasm Explanation Generation Liqiang Jing Xuemeng Song Kun Ouyang Mengzhao Jia Liqiang Nie 70 17 0 29 Jun 2023
Seeing in Words: Learning to Classify through Language Bottlenecks Khalid Saifullah Yuxin Wen Jonas Geiping Micah Goldblum Tom Goldstein VLM 53 2 0 29 Jun 2023
Towards Language Models That Can See: Computer Vision Through the LENS of Natural Language William Berrios Gautam Mittal Tristan Thrush Douwe Kiela Amanpreet Singh MLLM VLM 62 61 0 28 Jun 2023
VisText: A Benchmark for Semantically Rich Chart Captioning Benny J. Tang Angie Boggust Arvind Satyanarayan 92 87 0 28 Jun 2023
Self-Supervised Image Captioning with CLIP Chuanyang Jin VLM SSL 73 2 0 26 Jun 2023
Hierarchical Matching and Reasoning for Multi-Query Image Retrieval Zhong Ji Zhihao Li Yan Zhang Haoran Wang Yanwei Pang Xuelong Li 69 11 0 26 Jun 2023
Improving Reference-based Distinctive Image Captioning with Contrastive Rewards Yangjun Mao Jun Xiao Dong Zhang Meng Cao Jian Shao Yueting Zhuang Long Chen EGVM 72 9 0 25 Jun 2023
Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input Qingpei Guo Kaisheng Yao Wei Chu MLLM 45 5 0 25 Jun 2023
A Survey on Multimodal Large Language Models Shukang Yin Chaoyou Fu Sirui Zhao Ke Li Xing Sun Tong Xu Enhong Chen MLLM LRM 138 611 0 23 Jun 2023
Dense Video Object Captioning from Disjoint Supervision Xingyi Zhou Anurag Arnab Chen Sun Cordelia Schmid 103 3 0 20 Jun 2023
Improving Image Captioning Descriptiveness by Ranking and LLM-based Fusion Simone Bianco Luigi Celona Marco Donzella Paolo Napoletano 75 20 0 20 Jun 2023
KiUT: Knowledge-injected U-Transformer for Radiology Report Generation Zhongzhen Huang Xiaofan Zhang Shaoting Zhang MedIm 95 52 0 20 Jun 2023
Cross-Modal Attribute Insertions for Assessing the Robustness of Vision-and-Language Learning Shivaen Ramshetty Gaurav Verma Srijan Kumar 80 2 0 19 Jun 2023
Replace and Report: NLP Assisted Radiology Report Generation Kaveri Kale P. Bhattacharyya Kshitij Sharad Jadhav LM&MA MedIm 43 12 0 19 Jun 2023
Rapid Image Labeling via Neuro-Symbolic Learning Yifeng Wang Zhi Tu Yiwen Xiang Shiyuan Zhou Xiyuan Chen Bingxuan Li Tianyi Zhang VLM 83 6 0 18 Jun 2023
Generation of Radiology Findings in Chest X-Ray by Leveraging Collaborative Knowledge Manuela Danu George Marica Sanjeev Kumar Karn Bogdan Georgescu Awais Mansoor ... Lucian Mihai Itu C. Suciu Sasa Grbic Oladimeji Farri Dorin Comaniciu MedIm 64 8 0 18 Jun 2023
Enhancing the Prediction of Emotional Experience in Movies using Deep Neural Networks: The Significance of Audio and Language Sogand Mohammadi M. G. Orimi Hamid R. Rabiee 47 0 0 17 Jun 2023
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training Chong Liu Yuqi Zhang Hongsong Wang Weihua Chen F. Wang Yan Huang Yixing Shen Liang Wang 73 28 0 15 Jun 2023
Improving Selective Visual Question Answering by Learning from Your Peers Corentin Dancette Spencer Whitehead Rishabh Maheshwary Ramakrishna Vedantam Stefan Scherer Xinlei Chen Matthieu Cord Marcus Rohrbach AAML OOD 82 17 0 14 Jun 2023
AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn Difei Gao Lei Ji Luowei Zhou Kevin Lin Joya Chen Zihan Fan Mike Zheng Shou MLLM 96 76 0 14 Jun 2023
Top-Down Framework for Weakly-supervised Grounded Image Captioning Chen Cai Suchen Wang Kim-Hui Yap Yi Wang ObjD 60 3 0 13 Jun 2023
Scalable 3D Captioning with Pretrained Models Tiange Luo C. Rockwell Honglak Lee Justin Johnson 116 160 0 12 Jun 2023
Multi-modal Pre-training for Medical Vision-language Understanding and Generation: An Empirical Study with A New Benchmark Li Xu Bo Liu Ameer Hamza Khan Lu Fan Xiao-Ming Wu LM&MA 62 9 0 10 Jun 2023