Title
Multimodal Integration of Human-Like Attention in Visual Question Answering Ekta Sood Fabian Kögel Philippe Muller Dominike Thomas Mihai Bâce Andreas Bulling 66 17 0 27 Sep 2021
Joint Multimedia Event Extraction from Video and Article Brian Chen Xudong Lin Christopher Thomas Manling Li Shoya Yoshida Lovish Chum Heng Ji Shih-Fu Chang VGen 83 26 0 27 Sep 2021
OpenViDial 2.0: A Larger-Scale, Open-Domain Dialogue Generation Dataset with Visual Contexts Shuhe Wang Yuxian Meng Xiaoya Li Xiaofei Sun Rongbin Ouyang Jiwei Li MLLM VLM 93 22 0 27 Sep 2021
MLIM: Vision-and-Language Model Pre-training with Masked Language and Image Modeling Tarik Arici M. S. Seyfioglu T. Neiman Yi Tian Xu Son N. Tran Trishul Chilimbi Belinda Zeng Ismail B. Tutar VLM 59 15 0 24 Sep 2021
Visual Scene Graphs for Audio Source Separation Moitreya Chatterjee Jonathan Le Roux Narendra Ahuja A. Cherian 105 37 0 24 Sep 2021
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 300 224 0 24 Sep 2021
Dense Contrastive Visual-Linguistic Pretraining Lei Shi Kai Shuang Shijie Geng Peng Gao Zuohui Fu Gerard de Melo Yunpeng Chen Sen Su VLM SSL 127 11 0 24 Sep 2021
Scene Graph Generation for Better Image Captioning? Maximilian Mozes Martin Schmitt Vladimir Golkov Hinrich Schütze Zorah Lähner GNN 58 3 0 23 Sep 2021
WRENCH: A Comprehensive Benchmark for Weak Supervision Jieyu Zhang Yue Yu Yinghao Li Yujing Wang Yaming Yang Mao Yang Alexander Ratner 98 113 0 23 Sep 2021
Transferring Knowledge from Vision to Language: How to Achieve it and how to Measure it? Tobias Norlund Lovisa Hagström Richard Johansson 72 25 0 23 Sep 2021
COVR: A test-bed for Visually Grounded Compositional Generalization with real images Ben Bogin Shivanshu Gupta Matt Gardner Jonathan Berant CoGe 105 29 0 22 Sep 2021
Graph-based Cluttered Scene Generation and Interactive Exploration using Deep Reinforcement Learning K. N. Kumar Irfan Essa Sehoon Ha LM&Ro OffRL 59 11 0 21 Sep 2021
Survey: Transformer based Video-Language Pre-training Ludan Ruan Qin Jin VLM ViT 125 45 0 21 Sep 2021
Symbols as a Lingua Franca for Bridging Human-AI Chasm for Explainable and Advisable AI Systems Subbarao Kambhampati S. Sreedharan Mudit Verma Yantian Zha L. Guan 123 49 0 21 Sep 2021
Multi-Agent Embodied Visual Semantic Navigation with Scene Prior Knowledge Xinzhu Liu Di Guo Huaping Liu F. Sun EgoV 77 25 0 20 Sep 2021
Screen Parsing: Towards Reverse Engineering of UI Models from Screenshots Jason Wu Xiaoyi Zhang Jeffrey Nichols Jeffrey P. Bigham 3DV 186 72 0 17 Sep 2021
Multimodal Incremental Transformer with Visual Grounding for Visual Dialogue Generation Feilong Chen Fandong Meng Xiuyi Chen Peng Li Jie Zhou 102 23 0 17 Sep 2021
GoG: Relation-aware Graph-over-Graph Network for Visual Dialog Feilong Chen Xiuyi Chen Fandong Meng Peng Li Jie Zhou 145 35 0 17 Sep 2021
Cross Modification Attention Based Deliberation Model for Image Captioning Zheng Lian Yanan Zhang Haichang Li Rui Wang Xiaohui Hu 66 5 0 17 Sep 2021
Image Captioning for Effective Use of Language Models in Knowledge-Based Visual Question Answering Ander Salaberria Gorka Azkune Oier López de Lacalle Aitor Soroa Etxabe Eneko Agirre 92 61 0 15 Sep 2021
Discovering the Unknown Knowns: Turning Implicit Knowledge in the Dataset into Explicit Training Examples for Visual Question Answering Jihyung Kil Cheng Zhang D. Xuan Wei-Lun Chao 114 20 0 13 Sep 2021
xGQA: Cross-Lingual Visual Question Answering Jonas Pfeiffer Gregor Geigle Aishwarya Kamath Jan-Martin O. Steitz Stefan Roth Ivan Vulić Iryna Gurevych 117 62 0 13 Sep 2021
Explain Me the Painting: Multi-Topic Knowledgeable Art Description Generation Zechen Bai Yuta Nakashima Noa Garcia 110 44 0 13 Sep 2021
BGT-Net: Bidirectional GRU Transformer Network for Scene Graph Generation Naina Dhingra Florian Ritter A. Kunz 128 38 0 11 Sep 2021
Panoptic Narrative Grounding Cristina González Nicolás Ayobi Isabela Hernández José Hernández Jordi Pont-Tuset Pablo Arbeláez 146 23 0 10 Sep 2021
TxT: Crossmodal End-to-End Learning with Transformers Jan-Martin O. Steitz Jonas Pfeiffer Iryna Gurevych Stefan Roth LRM 29 2 0 09 Sep 2021
M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining Xiao Dong Xunlin Zhan Yangxin Wu Yunchao Wei Michael C. Kampffmeyer Xiaoyong Wei Minlong Lu Yaowei Wang Xiaodan Liang 116 38 0 09 Sep 2021
ACP++: Action Co-occurrence Priors for Human-Object Interaction Detection Dong-Jin Kim Xiao Sun Jinsoo Choi Stephen Lin In So Kweon 79 22 0 09 Sep 2021
Weakly-Supervised Visual-Retriever-Reader for Knowledge-based Question Answering Man Luo Yankai Zeng Pratyay Banerjee Chitta Baral RALM 131 66 0 09 Sep 2021
Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense in Text Generation Models Steven Y. Feng Kevin Lu Zhuofu Tao Malihe Alikhani Teruko Mitamura Eduard H. Hovy Varun Gangal LRM 79 13 0 08 Sep 2021
YouRefIt: Embodied Reference Understanding with Language and Gesture Yixin Chen Qing Li Deqian Kong Yik Lun Kei Song-Chun Zhu Tao Gao Yixin Zhu Siyuan Huang LM&Ro 81 42 0 08 Sep 2021
GeneAnnotator: A Semi-automatic Annotation Tool for Visual Scene Graph Zhixuan Zhang Chi Zhang Zhenning Niu Le Wang Yuehu Liu 30 7 0 06 Sep 2021
Hierarchical Object-to-Zone Graph for Object Navigation Sixian Zhang Xinhang Song Yubing Bai Weijie Li Yakui Chu Shuqiang Jiang 131 69 0 05 Sep 2021
Data Efficient Masked Language Modeling for Vision and Language Yonatan Bitton Gabriel Stanovsky Michael Elhadad Roy Schwartz VLM 82 20 0 05 Sep 2021
Weakly Supervised Relative Spatial Reasoning for Visual Question Answering Pratyay Banerjee Tejas Gokhale Yezhou Yang Chitta Baral LRM 85 19 0 04 Sep 2021
Point-of-Interest Type Prediction using Text and Images Danae Sánchez Villegas Nikolaos Aletras 116 14 0 01 Sep 2021
WebQA: Multihop and Multimodal QA Yingshan Chang M. Narang Hisami Suzuki Guihong Cao Jianfeng Gao Yonatan Bisk LRM 83 87 0 01 Sep 2021
N24News: A New Dataset for Multimodal News Classification Zhen Wang Xu Shan Xiangxie Zhang Jie Yang VLM 108 38 0 30 Aug 2021
From General to Specific: Informative Scene Graph Generation via Balance Adjustment Yuyu Guo Lianli Gao Xuanhan Wang Yuxuan Hu Xing Xu Xu Lu Heng Tao Shen Jingkuan Song 103 88 0 30 Aug 2021
Zero-shot Natural Language Video Localization Jinwoo Nam Daechul Ahn Dongyeop Kang S. Ha Jonghyun Choi 176 43 0 29 Aug 2021
Similar Scenes arouse Similar Emotions: Parallel Data Augmentation for Stylized Image Captioning Guodun Li Yuchen Zhai Zehao Lin Yin Zhang 106 21 0 26 Aug 2021
INVIGORATE: Interactive Visual Grounding and Grasping in Clutter Hanbo Zhang Yunfan Lu Cunjun Yu David Hsu Xuguang Lan Nanning Zheng LM&Ro 108 66 0 25 Aug 2021
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision Zirui Wang Jiahui Yu Adams Wei Yu Zihang Dai Yulia Tsvetkov Yuan Cao VLM MLLM 161 799 0 24 Aug 2021
Auto-Parsing Network for Image Captioning and Visual Question Answering Xu Yang Chongyang Gao Hanwang Zhang Jianfei Cai 117 37 0 24 Aug 2021
Embodied AI-Driven Operation of Smart Cities: A Concise Review Farzan Shenavarmasouleh F. Mohammadi M. Amini H. Arabnia 94 8 0 22 Aug 2021
Learning of Visual Relations: The Devil is in the Tails Alakh Desai Tz-Ying Wu Subarna Tripathi Nuno Vasconcelos 118 90 0 22 Aug 2021
Grid-VLP: Revisiting Grid Features for Vision-Language Pre-training Ming Yan Haiyang Xu Chenliang Li Bin Bi Junfeng Tian Min Gui Wei Wang VLM 62 10 0 21 Aug 2021
Airbert: In-domain Pretraining for Vision-and-Language Navigation Pierre-Louis Guhur Makarand Tapaswi Shizhe Chen Ivan Laptev Cordelia Schmid LM&Ro 59 144 0 20 Aug 2021
Localize, Group, and Select: Boosting Text-VQA by Scene Text Modeling Xiaopeng Lu Zhenhua Fan Yansen Wang Jean Oh Carolyn Rose 84 27 0 20 Aug 2021
Graph-to-3D: End-to-End Generation and Manipulation of 3D Scenes Using Scene Graphs Helisa Dhamo Fabian Manhardt Nassir Navab F. Tombari 3DV 53 70 0 19 Aug 2021