ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,119 papers shown

Title
Knowledge Perceived Multi-modal Pretraining in E-commerce Yushan Zhu Huaixiao Tou Wen Zhang Ganqiang Ye Hui Chen Ningyu Zhang Huajun Chen 94 33 0 20 Aug 2021
Detection of Illicit Drug Trafficking Events on Instagram: A Deep Multimodal Multilabel Learning Approach Chuanbo Hu Minglei Yin Bin Liu Xin Li Yanfang Ye 43 15 0 19 Aug 2021
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics Yehao Li Yingwei Pan Jingwen Chen Ting Yao Tao Mei VLM 88 31 0 18 Aug 2021
Who's Waldo? Linking People Across Text and Images Claire Yuqing Cui Apoorv Khandelwal Yoav Artzi Noah Snavely Hadar Averbuch-Elor 88 21 0 16 Aug 2021
MMChat: Multi-Modal Chat Dataset on Social Media Yinhe Zheng Guanyi Chen Xin Liu K. Lin 87 33 0 16 Aug 2021
ROSITA: Enhancing Vision-and-Language Semantic Alignments via Cross- and Intra-modal Knowledge Integration Yuhao Cui Zhou Yu Chunqi Wang Zhongzhou Zhao Ji Zhang Meng Wang Jun-chen Yu VLM 77 56 0 16 Aug 2021
Video Transformer for Deepfake Detection with Incremental Learning Sohail Ahmed Khan Hang Dai ViT 72 65 0 11 Aug 2021
BERTHop: An Effective Vision-and-Language Model for Chest X-ray Disease Diagnosis Masoud Monajatipoor Mozhdeh Rouhsedaghat Liunian Harold Li Aichi Chien C.-C. Jay Kuo Fabien Scalzo Kai-Wei Chang LM&MA MedIm 60 31 0 10 Aug 2021
Embodied BERT: A Transformer Model for Embodied, Language-guided Visual Task Completion Alessandro Suglia Qiaozi Gao Jesse Thomason Govind Thattai Gaurav Sukhatme LM&Ro 133 78 0 10 Aug 2021
Relation-aware Compositional Zero-shot Learning for Attribute-Object Pair Recognition Ziwei Xu Guangzhi Wang Yongkang Wong Mohan S. Kankanhalli 81 28 0 10 Aug 2021
Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models Zheyuan Liu Cristian Rodriguez-Opazo Damien Teney Stephen Gould VLM 84 207 0 09 Aug 2021
Disentangling Hate in Online Memes Rui Cao Ziqing Fan Roy Ka-wei Lee Wen-Haw Chong Jing Jiang 65 81 0 09 Aug 2021
Detecting Propaganda Techniques in Memes Dimitar Dimitrov Bishr Bin Ali Shaden Shaar Firoj Alam Fabrizio Silvestri Hamed Firooz Preslav Nakov Giovanni Da San Martino 92 95 0 07 Aug 2021
Interpretable Visual Understanding with Cognitive Attention Network Xuejiao Tang Wenbin Zhang Yi Yu Kea Turner Hanyu Wang Mengyu Wang Eirini Ntoutsi 136 12 0 06 Aug 2021
StrucTexT: Structured Text Understanding with Multi-Modal Transformers Yulin Li Yuxi Qian Yuchen Yu Xiameng Qin Chengquan Zhang Yan Liu Kun Yao Junyu Han Jingtuo Liu Errui Ding 102 117 0 06 Aug 2021
Fast Convergence of DETR with Spatially Modulated Co-Attention Peng Gao Minghang Zheng Xiaogang Wang Jifeng Dai Hongsheng Li ViT 93 308 0 05 Aug 2021
Exploiting BERT For Multimodal Target Sentiment Classification Through Input Space Translation Zaid Khan Y. Fu 81 140 0 03 Aug 2021
Representation learning for neural population activity with Neural Data Transformers Joel Ye C. Pandarinath AI4TS AI4CE 230 57 0 02 Aug 2021
StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators Rinon Gal Or Patashnik Haggai Maron Gal Chechik Daniel Cohen-Or CLIP VLM 92 232 0 02 Aug 2021
Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding Heng Zhao Qiufeng Wang Yew-Soon Ong ObjD 77 26 0 31 Jul 2021
Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal Pretraining Xunlin Zhan Yangxin Wu Xiao Dong Yunchao Wei Minlong Lu Yichi Zhang Hang Xu Xiaodan Liang ViT 94 67 0 30 Jul 2021
Multimodal Co-learning: Challenges, Applications with Datasets, Recent Advances and Future Directions Anil Rahate Rahee Walambe S. Ramanna K. Kotecha 113 143 0 29 Jul 2021
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing Pengfei Liu Weizhe Yuan Jinlan Fu Zhengbao Jiang Hiroaki Hayashi Graham Neubig VLM SyDa 431 4,053 0 28 Jul 2021
Exceeding the Limits of Visual-Linguistic Multi-Task Learning Cameron R. Wolfe Keld T. Lundgaard VLM 80 2 0 27 Jul 2021
Language Grounding with 3D Objects Jesse Thomason Mohit Shridhar Yonatan Bisk Chris Paxton Luke Zettlemoyer LM&Ro 96 53 0 26 Jul 2021
Spatial-Temporal Transformer for Dynamic Scene Graph Generation Yuren Cong Wentong Liao H. Ackermann Bodo Rosenhahn M. Yang ViT 72 129 0 26 Jul 2021
Multi-stage Pre-training over Simplified Multimodal Pre-training Models Tongtong Liu Fangxiang Feng Xiaojie Wang 41 13 0 22 Jul 2021
DRDF: Determining the Importance of Different Multimodal Information with Dual-Router Dynamic Framework Haiwen Hong Xuan Jin Yin Zhang Yunqing Hu Jingfeng Zhang Yuan He Hui Xue MoE 34 0 0 21 Jul 2021
Neural Variational Learning for Grounded Language Acquisition Nisha Pillai Cynthia Matuszek Francis Ferraro VLM SSL GAN DRL 113 2 0 20 Jul 2021
Neural Abstructions: Abstractions that Support Construction for Grounded Language Learning Kaylee Burns Christopher D. Manning Li Fei-Fei 56 0 0 20 Jul 2021
Separating Skills and Concepts for Novel Visual Question Answering Spencer Whitehead Hui Wu Heng Ji Rogerio Feris Kate Saenko CoGe 95 34 0 19 Jul 2021
Constructing Multi-Modal Dialogue Dataset by Replacing Text with Semantically Relevant Images Nyoungwoo Lee Suwon Shin Jaegul Choo Ho‐Jin Choi S. Myaeng 62 27 0 19 Jul 2021
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Junnan Li Ramprasaath R. Selvaraju Akhilesh Deepak Gotmare Shafiq Joty Caiming Xiong Guosheng Lin FaML 347 1,991 0 16 Jul 2021
MultiBench: Multiscale Benchmarks for Multimodal Representation Learning Paul Pu Liang Yiwei Lyu Xiang Fan Zetian Wu Yun Cheng ... Peter Wu Michelle A. Lee Yuke Zhu Ruslan Salakhutdinov Louis-Philippe Morency VLM 111 172 0 15 Jul 2021
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 158 270 0 14 Jul 2021
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Joey Tianyi Zhou Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 276 412 0 13 Jul 2021
FairyTailor: A Multimodal Generative Framework for Storytelling Eden Bensaid Mauro Martino Benjamin Hoover Hendrik Strobelt LRM 77 20 0 13 Jul 2021
End-to-end Multi-modal Video Temporal Grounding Yi-Wen Chen Yi-Hsuan Tsai Ming-Hsuan Yang 78 51 0 12 Jul 2021
MECT: Multi-Metadata Embedding based Cross-Transformer for Chinese Named Entity Recognition Shuang Wu Xiaoning Song Zhenhua Feng 84 117 0 12 Jul 2021
BERT-like Pre-training for Symbolic Piano Music Classification Tasks Yi-Hui Chou I-Chun Chen Chin-Jui Chang Joann Ching Yi-Hsuan Yang 102 25 0 12 Jul 2021
Zero-Shot Compositional Concept Learning Guangyue Xu Parisa Kordjamshidi J. Chai CoGe 139 19 0 12 Jul 2021
Evaluating Large Language Models Trained on Code Mark Chen Jerry Tworek Heewoo Jun Qiming Yuan Henrique Pondé ... Bob McGrew Dario Amodei Sam McCandlish Ilya Sutskever Wojciech Zaremba ELM ALM 302 5,702 0 07 Jul 2021
Deep Learning for Embodied Vision Navigation: A Survey Fengda Zhu Yi Zhu Vincent CS Lee Xiaodan Liang Xiaojun Chang EgoV LM&Ro 101 0 0 07 Jul 2021
VidLanKD: Improving Language Understanding via Video-Distilled Knowledge Transfer Zineng Tang Jaemin Cho Hao Tan Joey Tianyi Zhou VLM 59 29 0 06 Jul 2021
PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior for Joint Image-Text Modeling Xiaoxue Zang Lijuan Liu Maria Wang Yang Song Hao Zhang Jindong Chen VLM 103 60 0 06 Jul 2021
Cognitive Visual Commonsense Reasoning Using Dynamic Working Memory Xuejiao Tang Xin Huang Wenbin Zhang T. Child Qiong Hu Zhen Liu Ji Zhang LRM 81 19 0 04 Jul 2021
Target-dependent UNITER: A Transformer-Based Multimodal Language Comprehension Model for Domestic Service Robots Shintaro Ishikawa K. Sugiura 67 11 0 02 Jul 2021
Case Relation Transformer: A Crossmodal Language Generation Model for Fetching Instructions Motonari Kambara K. Sugiura ViT 62 6 0 02 Jul 2021
Productivity, Portability, Performance: Data-Centric Python Yiheng Wang Yao Zhang Yanzhang Wang Yan Wan Jiao Wang Zhongyuan Wu Yuhao Yang Bowen She 169 101 0 01 Jul 2021
OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation Jing Liu Xinxin Zhu Fei Liu Longteng Guo Zijia Zhao ... Weining Wang Hanqing Lu Shiyu Zhou Jiajun Zhang Jinqiao Wang 95 38 0 01 Jul 2021