LXMERT: Learning Cross-Modality Encoder Representations from Transformers

20 August 2019

Papers citing "LXMERT: Learning Cross-Modality Encoder Representations from Transformers"

50 / 1,513 papers shown

Title
Masked Vision and Language Modeling for Multi-modal Representation Learning Gukyeong Kwon Zhaowei Cai Avinash Ravichandran Erhan Bas Rahul Bhotika Stefano Soatto 36 67 0 03 Aug 2022
Video Question Answering with Iterative Video-Text Co-Tokenization A. Piergiovanni K. Morton Weicheng Kuo Michael S. Ryoo A. Angelova 39 18 0 01 Aug 2022
Generative Bias for Robust Visual Question Answering Jae-Won Cho Dong-Jin Kim H. Ryu In So Kweon OOD CML 41 19 0 01 Aug 2022
Augmenting Vision Language Pretraining by Learning Codebook with Visual Semantics Xiaoyuan Guo Jiali Duan C.-C. Jay Kuo J. Gichoya Imon Banerjee VLM 25 1 0 31 Jul 2022
End-to-end View Synthesis via NeRF Attention Zelin Zhao Jiaya Jia 60 8 0 29 Jul 2022
SiRi: A Simple Selective Retraining Mechanism for Transformer-based Visual Grounding Mengxue Qu Yu Wu Wu Liu Qiqi Gong Xiaodan Liang Olga Russakovsky Yao Zhao Yunchao Wei ObjD 19 22 0 27 Jul 2022
LaKo: Knowledge-driven Visual Question Answering via Late Knowledge-to-Text Injection Zhuo Chen Yufen Huang Jiaoyan Chen Yuxia Geng Yin Fang Jeff Z. Pan Ningyu Zhang Wen Zhang 33 36 0 26 Jul 2022
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training Haoxuan You Luowei Zhou Bin Xiao Noel Codella Yu Cheng Ruochen Xu Shih-Fu Chang Lu Yuan CLIP VLM 29 47 0 26 Jul 2022
Is GPT-3 all you need for Visual Question Answering in Cultural Heritage? P. Bongini Federico Becattini A. Bimbo 14 13 0 25 Jul 2022
LocVTP: Video-Text Pre-training for Temporal Localization Meng Cao Tianyu Yang Junwu Weng Can Zhang Jue Wang Yuexian Zou 34 64 0 21 Jul 2022
Temporal and cross-modal attention for audio-visual zero-shot learning Otniel-Bogdan Mercea Thomas Hummel A. Sophia Koepke Zeynep Akata 43 25 0 20 Jul 2022
Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification Renrui Zhang Zhang Wei Rongyao Fang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 58 299 0 19 Jul 2022
Don't Stop Learning: Towards Continual Learning for the CLIP Model Yuxuan Ding Lingqiao Liu Chunna Tian Jingyuan Yang Haoxuan Ding CLL VLM KELM 24 52 0 19 Jul 2022
FashionViL: Fashion-Focused Vision-and-Language Representation Learning Xiaoping Han Licheng Yu Xiatian Zhu Li Zhang Yi-Zhe Song Tao Xiang AI4TS 23 49 0 17 Jul 2022
Clover: Towards A Unified Video-Language Alignment and Fusion Model Jingjia Huang Yinan Li Jiashi Feng Xinglong Wu Xiaoshuai Sun Rongrong Ji VLM 31 48 0 16 Jul 2022
Learning Granularity-Unified Representations for Text-to-Image Person Re-identification Zhiyin Shao Xinyu Zhang Meng Fang Zhi-hao Lin Jian Wang Changxing Ding 44 99 0 16 Jul 2022
X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval Yiwei Ma Guohai Xu Xiaoshuai Sun Ming Yan Ji Zhang Rongrong Ji CLIP VLM 46 274 0 15 Jul 2022
Learning to translate by learning to communicate C.M. Downey Xuhui Zhou Leo Z. Liu Shane Steinert-Threlkeld 43 5 0 14 Jul 2022
Video Graph Transformer for Video Question Answering Junbin Xiao Pan Zhou Tat-Seng Chua Shuicheng Yan ViT 159 7 0 12 Jul 2022
IDEA: Increasing Text Diversity via Online Multi-Label Recognition for Vision-Language Pre-training Xinyu Huang Youcai Zhang Ying Cheng Weiwei Tian Ruiwei Zhao Rui Feng Yuejie Zhang Yaqian Li Yandong Guo Xiao-Yong Zhang VLM 28 14 0 12 Jul 2022
Towards Multimodal Vision-Language Models Generating Non-Generic Text Wes Robbins Zanyar Zohourianshahzadi Jugal Kalita 19 1 0 09 Jul 2022
CoSIm: Commonsense Reasoning for Counterfactual Scene Imagination Hyounghun Kim Abhaysinh Zala Joey Tianyi Zhou 24 6 0 08 Jul 2022
Toward Explainable and Fine-Grained 3D Grounding through Referring Textual Phrases Zhihao Yuan Xu Yan Zhuo Li Xuhao Li Yao Guo Shuguang Cui Zhen Li 34 17 0 05 Jul 2022
Vision-and-Language Pretraining Thong Nguyen Cong-Duy Nguyen Xiaobao Wu See-Kiong Ng Anh Tuan Luu VLM CLIP 32 2 0 05 Jul 2022
DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning Zhuo Chen Yufen Huang Jiaoyan Chen Yuxia Geng Wen Zhang Yin Fang Jeff Z. Pan Huajun Chen VLM 42 65 0 04 Jul 2022
Counterfactually Measuring and Eliminating Social Bias in Vision-Language Pre-training Models Yi Zhang Junyan Wang Jitao Sang 29 28 0 03 Jul 2022
Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representation Learning and Retrieval Keyu Wen Zhenshan Tan Qingrong Cheng Cheng Chen X. Gu VLM 32 0 0 02 Jul 2022
VL-CheckList: Evaluating Pre-trained Vision-Language Models with Objects, Attributes and Relations Tiancheng Zhao Tianqi Zhang Mingwei Zhu Haozhan Shen Kyusong Lee Xiaopeng Lu Jianwei Yin VLM CoGe MLLM 56 92 0 01 Jul 2022
e-CLIP: Large-Scale Vision-Language Representation Learning in E-commerce Wonyoung Shin Jonghun Park Taekang Woo Yongwoo Cho Kwangjin Oh Hwanjun Song VLM 61 17 0 01 Jul 2022
A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA Yangyang Guo Liqiang Nie Yongkang Wong Yebin Liu Zhiyong Cheng Mohan S. Kankanhalli 77 39 0 30 Jun 2022
Personalized Showcases: Generating Multi-Modal Explanations for Recommendations An Yan Zhankui He Jiacheng Li Tianyang Zhang Julian McAuley 40 36 0 30 Jun 2022
EBMs vs. CL: Exploring Self-Supervised Visual Pretraining for Visual Question Answering Violetta Shevchenko Ehsan Abbasnejad A. Dick Anton Van Den Hengel Damien Teney 51 0 0 29 Jun 2022
MACSA: A Multimodal Aspect-Category Sentiment Analysis Dataset with Multimodal Fine-grained Aligned Annotations Hao Yang Yanyan Zhao Jianwei Liu Yang Wu Bing Qin 41 4 0 28 Jun 2022
Consistency-preserving Visual Question Answering in Medical Imaging Sergio Tascon-Morales Pablo Márquez-Neila Raphael Sznitman MedIm 40 12 0 27 Jun 2022
Endowing Language Models with Multimodal Knowledge Graph Representations Ningyuan Huang Y. Deshpande Yibo Liu Houda Alberts Kyunghyun Cho Clara Vania Iacer Calixto VLM 43 14 0 27 Jun 2022
Automatic Generation of Product-Image Sequence in E-commerce Xiaochuan Fan Chi Zhang Yong-Jie Yang Yue Shang Xueying Zhang Zhen He Yun Xiao Bo Long Lingfei Wu 36 4 0 26 Jun 2022
VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives Zhuofan Ying Peter Hase Joey Tianyi Zhou LRM 38 13 0 22 Jun 2022
Towards Adversarial Attack on Vision-Language Pre-training Models Jiaming Zhang Qiaomin Yi Jitao Sang VLM AAML 32 95 0 19 Jun 2022
VReBERT: A Simple and Flexible Transformer for Visual Relationship Detection Yunbo Cui M. Farazi ViT 25 1 0 18 Jun 2022
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix Teng Wang Wenhao Jiang Zhichao Lu Feng Zheng Ran Cheng Chengguo Yin Ping Luo VLM 42 42 0 17 Jun 2022
Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks Jiasen Lu Christopher Clark Rowan Zellers Roozbeh Mottaghi Aniruddha Kembhavi ObjD VLM MLLM 103 393 0 17 Jun 2022
Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product Retrieval Xiao Dong Xunlin Zhan Yunchao Wei Xiaoyong Wei Yaowei Wang Minlong Lu Xiaochun Cao Xiaodan Liang 35 11 0 17 Jun 2022
Multimodal Attention-based Deep Learning for Alzheimer's Disease Diagnosis Michal Golovanevsky Carsten Eickhoff Ritambhara Singh 27 63 0 17 Jun 2022
BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning Xiao Xu Chenfei Wu Shachar Rosenman Vasudev Lal Wanxiang Che Nan Duan 51 64 0 17 Jun 2022
Local Slot Attention for Vision-and-Language Navigation Yifeng Zhuang Qiang Sun Yanwei Fu Lifeng Chen Xiangyang Xue 42 2 0 17 Jun 2022
MixGen: A New Multi-Modal Data Augmentation Xiaoshuai Hao Yi Zhu Srikar Appalaraju Aston Zhang Wanqian Zhang Boyang Li Mu Li VLM 25 84 0 16 Jun 2022
Zero-Shot Video Question Answering via Frozen Bidirectional Language Models Antoine Yang Antoine Miech Josef Sivic Ivan Laptev Cordelia Schmid 66 229 0 16 Jun 2022
Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos Lianyang Ma Yu Yao Tao Liang Tongliang Liu 23 4 0 16 Jun 2022
Write and Paint: Generative Vision-Language Models are Unified Modal Learners Shizhe Diao Wangchunshu Zhou Xinsong Zhang Jiawei Wang MLLM AI4CE 34 16 0 15 Jun 2022
Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone Zi-Yi Dou Aishwarya Kamath Zhe Gan Pengchuan Zhang Jianfeng Wang ... Ce Liu Yann LeCun Nanyun Peng Jianfeng Gao Lijuan Wang VLM ObjD 38 124 0 15 Jun 2022