Title
MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering Yang Ding Jing Yu Bangchang Liu Yue Hu Mingxin Cui Qi Wu 58 64 0 17 Mar 2022
UNIMO-2: End-to-End Unified Vision-Language Grounded Learning Wei Li Can Gao Guocheng Niu Xinyan Xiao Hao Liu Jiachen Liu Hua Wu Haifeng Wang MLLM 51 22 0 17 Mar 2022
DU-VLG: Unifying Vision-and-Language Generation via Dual Sequence-to-Sequence Pre-training Luyang Huang Guocheng Niu Jiachen Liu Xinyan Xiao Hua Wu VLM CoGe 56 8 0 17 Mar 2022
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding Haojun Jiang Yuanze Lin Dongchen Han Shiji Song Gao Huang ObjD 107 54 0 16 Mar 2022
Spot the Difference: A Cooperative Object-Referring Game in Non-Perfectly Co-Observable Scene Duo Zheng Fandong Meng Q. Si Hairun Fan Zipeng Xu Jie Zhou Fangxiang Feng Xiaojie Wang 77 0 0 16 Mar 2022
K-VQG: Knowledge-aware Visual Question Generation for Common-sense Acquisition Kohei Uehara Tatsuya Harada 98 10 0 15 Mar 2022
Revitalize Region Feature for Democratizing Video-Language Pre-training of Retrieval Guanyu Cai Yixiao Ge Binjie Zhang Alex Jinpeng Wang Rui Yan ... Ying Shan Lianghua He Xiaohu Qie Jianping Wu Mike Zheng Shou VLM 57 6 0 15 Mar 2022
CARETS: A Consistency And Robustness Evaluative Test Suite for VQA Carlos E. Jimenez Olga Russakovsky Karthik Narasimhan CoGe 84 14 0 15 Mar 2022
All in One: Exploring Unified Video-Language Pre-training Alex Jinpeng Wang Yixiao Ge Rui Yan Yuying Ge Xudong Lin Guanyu Cai Jianping Wu Ying Shan Xiaohu Qie Mike Zheng Shou 122 202 0 14 Mar 2022
Hierarchical Memory Learning for Fine-Grained Scene Graph Generation Youming Deng Yansheng Li Yongjun Zhang Xiang Xiang Jian Wang Jingdong Chen Jiayi Ma 131 22 0 14 Mar 2022
Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation Wenliang Dai Lu Hou Lifeng Shang Xin Jiang Qun Liu Pascale Fung VLM 92 94 0 12 Mar 2022
REX: Reasoning-aware and Grounded Explanation Shi Chen Qi Zhao 89 18 0 11 Mar 2022
The Overlooked Classifier in Human-Object Interaction Recognition Ying Jin Yinpeng Chen Lijuan Wang Jianfeng Wang Pei Yu Lin Liang Lei Li Zicheng Liu VLM 92 8 0 10 Mar 2022
Spatial Commonsense Graph for Object Localisation in Partial Scenes Francesco Giuliari Geri Skenderi Marco Cristani Yiming Wang Alessio Del Bue 120 17 0 10 Mar 2022
Knowledge-enriched Attention Network with Group-wise Semantic for Visual Storytelling Tengpeng Li Hanli Wang Bin He Changan Chen DiffM 88 10 0 10 Mar 2022
PACTran: PAC-Bayesian Metrics for Estimating the Transferability of Pretrained Models to Classification Tasks Nan Ding Xi Chen Tomer Levinboim Soravit Changpinyo Radu Soricut 79 29 0 10 Mar 2022
NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks Fawaz Sammani Tanmoy Mukherjee Nikos Deligiannis MILM ELM LRM 138 68 0 09 Mar 2022
HyperPELT: Unified Parameter-Efficient Language Model Tuning for Both Language and Vision-and-Language Tasks Zhengkun Zhang Wenya Guo Xiaojun Meng Yasheng Wang Yadao Wang Xin Jiang Qun Liu Zhenglu Yang 80 17 0 08 Mar 2022
Unpaired Image Captioning by Image-level Weakly-Supervised Visual Concept Recognition Peipei Zhu Tianlin Li Yong Luo Zhenglong Sun Wei-Shi Zheng Yaowei Wang Chen Chen 102 12 0 07 Mar 2022
GlideNet: Global, Local and Intrinsic based Dense Embedding NETwork for Multi-category Attributes Prediction Kareem M. Metwaly Aerin Kim E. Branson V. Monga 86 7 0 07 Mar 2022
Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for Temporal Sentence Grounding Daizong Liu Xiang Fang Wei Hu Pan Zhou 98 37 0 06 Mar 2022
Vision-Language Intelligence: Tasks, Representation Learning, and Large Models Feng Li Hao Zhang Yi-Fan Zhang Shixuan Liu Jian Guo L. Ni Pengchuan Zhang Lei Zhang AI4TS VLM 81 37 0 03 Mar 2022
Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data Programming Cheng-Yu Hsieh Jieyu Zhang Alexander Ratner 100 16 0 02 Mar 2022
Video Question Answering: Datasets, Algorithms and Challenges Yaoyao Zhong Junbin Xiao Wei Ji Yicong Li Wei Deng Tat-Seng Chua 124 93 0 02 Mar 2022
Unsupervised Vision-and-Language Pre-training via Retrieval-based Multi-Granular Alignment Mingyang Zhou Licheng Yu Amanpreet Singh Mengjiao MJ Wang Zhou Yu Ning Zhang VLM 82 31 0 01 Mar 2022
Multi-modal Alignment using Representation Codebook Jiali Duan Liqun Chen Son Tran Jinyu Yang Yi Xu Belinda Zeng Trishul Chilimbi 105 68 0 28 Feb 2022
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xinyu Wang ViT VLM 306 529 0 22 Feb 2022
Relation Regularized Scene Graph Generation Yuyu Guo Lianli Gao Jingkuan Song Peng Wang N. Sebe Heng Tao Shen Xuelong Li 68 15 0 22 Feb 2022
One-shot Scene Graph Generation Yuyu Guo Jingkuan Song Lianli Gao Heng Tao Shen 93 30 0 22 Feb 2022
CaMEL: Mean Teacher Learning for Image Captioning Manuele Barraco Matteo Stefanini Marcella Cornia S. Cascianelli Lorenzo Baraldi Rita Cucchiara ViT VLM 78 30 0 21 Feb 2022
Reasoning with Scene Graphs for Robot Planning under Partial Observability S. Amiri Kishan Chandan Shiqi Zhang 93 46 0 21 Feb 2022
Vision-Language Pre-Training with Triple Contrastive Learning Jinyu Yang Jiali Duan Son N. Tran Yi Xu Sampath Chanda Liqun Chen Belinda Zeng Trishul Chilimbi Junzhou Huang VLM 120 300 0 21 Feb 2022
OG-SGG: Ontology-Guided Scene Graph Generation. A Case Study in Transfer Learning for Telepresence Robotics Fernando Amodeo F. Caballero N. Díaz-Rodríguez L. Merino LM&Ro 97 10 0 21 Feb 2022
A Survey of Vision-Language Pre-Trained Models Yifan Du Zikang Liu Junyi Li Wayne Xin Zhao VLM 159 189 0 18 Feb 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 183 227 0 18 Feb 2022
ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer Kohei Uehara Yusuke Mori Yusuke Mukuta Tatsuya Harada 96 6 0 15 Feb 2022
CommerceMM: Large-Scale Commerce MultiModal Representation Learning with Omni Retrieval Licheng Yu Jun Chen Animesh Sinha Mengjiao MJ Wang Hugo Chen Tamara L. Berg Ning Zhang VLM 93 39 0 15 Feb 2022
Do Lessons from Metric Learning Generalize to Image-Caption Retrieval? Maurits J. R. Bleeker Maarten de Rijke SSL DML 48 9 0 14 Feb 2022
Wukong: A 100 Million Large-scale Chinese Cross-modal Pre-training Benchmark Jiaxi Gu Xiaojun Meng Guansong Lu Lu Hou Minzhe Niu ... Runhu Huang Wei Zhang Xingda Jiang Chunjing Xu Hang Xu VLM 172 95 0 14 Feb 2022
MetaShift: A Dataset of Datasets for Evaluating Contextual Distribution Shifts and Training Conflicts Weixin Liang James Zou OOD 107 84 0 14 Feb 2022
Multi-Modal Knowledge Graph Construction and Application: A Survey Xiangru Zhu Zhixu Li Xiaodan Wang Xueyao Jiang Penglei Sun Xuwu Wang Yanghua Xiao N. Yuan 73 167 0 11 Feb 2022
Computing Rule-Based Explanations of Machine Learning Classifiers using Knowledge Graphs Edmund Dervakos Orfeas Menis Mastromichalakis A. Chortaras Giorgos Stamou FAtt 125 6 0 08 Feb 2022
Self-Supervised Representation Learning for Speech Using Visual Grounding and Masked Language Modeling Puyuan Peng David Harwath SSL 96 26 0 07 Feb 2022
OFA: Unifying Architectures, Tasks, and Modalities Through a Simple Sequence-to-Sequence Learning Framework Peng Wang An Yang Rui Men Junyang Lin Shuai Bai Zhikang Li Jianxin Ma Chang Zhou Jingren Zhou Hongxia Yang MLLM ObjD 258 884 0 07 Feb 2022
Webly Supervised Concept Expansion for General Purpose Vision Models Amita Kamath Christopher Clark Tanmay Gupta Eric Kolve Derek Hoiem Aniruddha Kembhavi VLM 97 55 0 04 Feb 2022
Grounding Answers for Visual Questions Asked by Visually Impaired People Chongyan Chen Samreen Anjum Danna Gurari 109 49 0 04 Feb 2022
Privacy-Aware Crowd Labelling for Machine Learning Tasks Giannis Haralabopoulos Ioannis Anagnostopoulos 28 0 0 03 Feb 2022
Keyword localisation in untranscribed speech using visually grounded speech models Kayode Olaleye Dan Oneaţă Herman Kamper 63 7 0 02 Feb 2022
Deep Learning Approaches on Image Captioning: A Review Taraneh Ghandi H. Pourreza H. Mahyar VLM 136 101 0 31 Jan 2022
Deep Learning Methods for Abstract Visual Reasoning: A Survey on Raven's Progressive Matrices Mikolaj Malkiñski Jacek Mańdziuk 216 43 0 28 Jan 2022