Title
Multimedia Generative Script Learning for Task Planning Qingyun Wang Manling Li Hou Pong Chan Lifu Huang Julia Hockenmaier Girish Chowdhary Heng Ji VGen 120 13 0 25 Aug 2022
MuMUR : Multilingual Multimodal Universal Retrieval Avinash Madasu Estelle Aflalo Gabriela Ben-Melech Stan Shachar Rosenman Shao-Yen Tseng Gedas Bertasius Vasudev Lal 150 3 0 24 Aug 2022
Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA Task Stan Weixian Lei Difei Gao Jay Zhangjie Wu Yuxuan Wang Wei Liu Meng Zhang Mike Zheng Shou 71 38 0 24 Aug 2022
FashionVQA: A Domain-Specific Visual Question Answering System Min Wang A. Mahjoubfar Anupama Joshi 106 4 0 24 Aug 2022
Learning More May Not Be Better: Knowledge Transferability in Vision and Language Tasks Tianwei Chen Noa Garcia Mayu Otani Chenhui Chu Yuta Nakashima Hajime Nagahara VLM 56 0 0 23 Aug 2022
Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks Wenhui Wang Hangbo Bao Li Dong Johan Bjorck Zhiliang Peng ... Kriti Aggarwal O. Mohammed Saksham Singhal Subhojit Som Furu Wei MLLM VLM ViT 157 646 0 22 Aug 2022
Reference-Limited Compositional Zero-Shot Learning Siteng Huang Qiyao Wei Donglin Wang CoGe 84 4 0 22 Aug 2022
See Finer, See More: Implicit Modality Alignment for Text-based Person Retrieval Xiujun Shu Wei Wen Haoqian Wu Keyun Chen Yi-Zhe Song Ruizhi Qiao Bohan Ren Xiao Wang 101 99 0 18 Aug 2022
Multimodal foundation models are better simulators of the human brain Haoyu Lu Qiongyi Zhou Nanyi Fei Zhiwu Lu Mingyu Ding ... Changde Du Xin Zhao Haoran Sun Huiguang He J. Wen AI4CE 85 13 0 17 Aug 2022
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning Tao He Lianli Gao Jingkuan Song Yuan-Fang Li VLM 88 53 0 17 Aug 2022
What Artificial Neural Networks Can Tell Us About Human Language Acquisition Alex Warstadt Samuel R. Bowman 88 120 0 17 Aug 2022
Context-aware Mixture-of-Experts for Unbiased Scene Graph Generation Liguang Zhou Yuhongze Zhou Tin Lun Lam Yangsheng Xu EDL MoE 97 2 0 15 Aug 2022
GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-training Jaeseok Byun Taebaek Hwang Jianlong Fu Taesup Moon VLM 93 11 0 08 Aug 2022
Integrating Object-aware and Interaction-aware Knowledge for Weakly Supervised Scene Graph Generation Xingchen Li Long Chen Wenbo Ma Yi Yang Jun Xiao 76 27 0 03 Aug 2022
TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation Jun Wang M. Gao Yuqian Hu Ramprasaath R. Selvaraju Chetan Ramaiah Ran Xu Joseph Jaja Larry S. Davis ViT 72 18 0 03 Aug 2022
Augmenting Vision Language Pretraining by Learning Codebook with Visual Semantics Xiaoyuan Guo Jiali Duan C.-C. Jay Kuo J. Gichoya Imon Banerjee VLM 46 1 0 31 Jul 2022
Mining Cross-Person Cues for Body-Part Interactiveness Learning in HOI Detection Xiaoqian Wu Yong-Lu Li Xinpeng Liu Junyi Zhang Yuzhe Wu Cewu Lu 90 39 0 28 Jul 2022
Break and Make: Interactive Structural Understanding Using LEGO Bricks Aaron Walsman Muru Zhang Klemen Kotar Karthik Desingh Ali Farhadi Dieter Fox 71 10 0 27 Jul 2022
NICEST: Noisy Label Correction and Training for Robust Scene Graph Generation Lin Li Jun Xiao Hanrong Shi Hanwang Zhang Yi Yang Wen Liu Long Chen 99 23 0 27 Jul 2022
Uncertainty-based Visual Question Answering: Estimating Semantic Inconsistency between Image and Knowledge Base Jinyeong Chae Jihie Kim 59 2 0 27 Jul 2022
Meta Spatio-Temporal Debiasing for Video Scene Graph Generation Li Xu Haoxuan Qu Jason Kuen Jiuxiang Gu Jun Liu CML 93 27 0 23 Jul 2022
Panoptic Scene Graph Generation Jingkang Yang Yi Zhe Ang Zujin Guo Kaiyang Zhou Wayne Zhang Ziwei Liu 152 114 0 22 Jul 2022
LocVTP: Video-Text Pre-training for Temporal Localization Meng Cao Tianyu Yang Junwu Weng Can Zhang Jue Wang Yuexian Zou 90 65 0 21 Jul 2022
Human-centric Image Cropping with Partition-aware and Content-preserving Features Bo Zhang Li Niu Xing Zhao Liqing Zhang 44 6 0 21 Jul 2022
Is an Object-Centric Video Representation Beneficial for Transfer? Chuhan Zhang Ankush Gupta Andrew Zisserman ViT 147 27 0 20 Jul 2022
ViGAT: Bottom-up event recognition and explanation in video using factorized graph attention network Nikolaos Gkalelis Dimitrios Daskalakis Vasileios Mezaris 53 10 0 20 Jul 2022
GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features Van-Quang Nguyen Masanori Suganuma Takayuki Okatani ViT 84 114 0 20 Jul 2022
Rethinking Data Augmentation for Robust Visual Question Answering Long Chen Yuhang Zheng Jun Xiao OOD 88 43 0 18 Jul 2022
Clover: Towards A Unified Video-Language Alignment and Fusion Model Jingjia Huang Yinan Li Jiashi Feng Xinglong Wu Xiaoshuai Sun Rongrong Ji VLM 121 50 0 16 Jul 2022
Efficient Augmentation for Imbalanced Deep Learning Damien Dablain C. Bellinger Bartosz Krawczyk Nitesh Chawla 66 7 0 13 Jul 2022
Video Graph Transformer for Video Question Answering Junbin Xiao Pan Zhou Tat-Seng Chua Shuicheng Yan ViT 229 78 0 12 Jul 2022
IDEA: Increasing Text Diversity via Online Multi-Label Recognition for Vision-Language Pre-training Xinyu Huang Youcai Zhang Ying Cheng Weiwei Tian Ruiwei Zhao Rui Feng Yuejie Zhang Yaqian Li Yandong Guo Xiao-Yong Zhang VLM 74 14 0 12 Jul 2022
GEMS: Scene Expansion using Generative Models of Graphs Rishi G. Agarwal Tirupati Saketh Chandra Vaidehi Patil Aniruddha Mahapatra K. Kulkarni Vishwa Vinay 83 4 0 08 Jul 2022
Exploring the sequence length bottleneck in the Transformer for Image Captioning Jiapeng Hu Roberto Cavicchioli Alessandro Capotondi ViT 68 3 0 07 Jul 2022
Multi-Label Retinal Disease Classification using Transformers Manuel A. Rodríguez Hasan Al-Marzouqi P. Liatsis MedIm 61 54 0 05 Jul 2022
ViRel: Unsupervised Visual Relations Discovery with Graph-level Analogy D. Zeng Tailin Wu J. Leskovec GNN 108 1 0 04 Jul 2022
Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representation Learning and Retrieval Keyu Wen Zhenshan Tan Qingrong Cheng Cheng Chen X. Gu VLM 69 0 0 02 Jul 2022
American == White in Multimodal Language-and-Image AI Robert Wolfe Aylin Caliskan VLM 90 51 0 01 Jul 2022
Transforming Image Generation from Scene Graphs Renato Sortino S. Palazzo C. Spampinato ViT 66 2 0 01 Jul 2022
VL-CheckList: Evaluating Pre-trained Vision-Language Models with Objects, Attributes and Relations Tiancheng Zhao Tianqi Zhang Mingwei Zhu Haozhan Shen Kyusong Lee Xiaopeng Lu Jianwei Yin VLM CoGe MLLM 116 99 0 01 Jul 2022
Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations Ziyan Yang Kushal Kafle Franck Dernoncourt Vicente Ordónez Román VLM 90 25 0 30 Jun 2022
Modern Question Answering Datasets and Benchmarks: A Survey Zhen Wang 85 23 0 30 Jun 2022
EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual Question Answering Violetta Shevchenko Ehsan Abbasnejad A. Dick Anton Van Den Hengel Damien Teney 73 0 0 29 Jun 2022
VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives Zhuofan Ying Peter Hase Joey Tianyi Zhou LRM 87 13 0 22 Jun 2022
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations Ximeng Sun Ping Hu Kate Saenko VLM 105 126 0 20 Jun 2022
What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding without Text Inputs Tal Shaharabany Yoad Tewel Lior Wolf ObjD 96 16 0 19 Jun 2022
Piecewise Linear Neural Networks and Deep Learning Qinghua Tao Li Li Xiaolin Huang Xiangming Xi Shuning Wang Johan A. K. Suykens 43 30 0 18 Jun 2022
Self-Supervised Learning for Videos: A Survey Madeline Chantry Schiappa Yogesh S Rawat M. Shah SSL 130 136 0 18 Jun 2022
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix Teng Wang Wenhao Jiang Zhichao Lu Feng Zheng Ran Cheng Chengguo Yin Ping Luo VLM 86 44 0 17 Jun 2022
Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks Jiasen Lu Christopher Clark Rowan Zellers Roozbeh Mottaghi Aniruddha Kembhavi ObjD VLM MLLM 171 412 0 17 Jun 2022