LXMERT: Learning Cross-Modality Encoder Representations from Transformers

20 August 2019

Papers citing "LXMERT: Learning Cross-Modality Encoder Representations from Transformers"

50 / 1,512 papers shown

Title
Joint Learning of Localized Representations from Medical Images and Reports Philipp Muller Georgios Kaissis Cong Zou Daniel Munich 140 81 0 06 Dec 2021
VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts Longtian Qiu Renrui Zhang Ziyu Guo Wei Zhang Zilu Guo Ziyao Zeng Guangnan Zhang VLM CLIP 30 45 0 04 Dec 2021
Uni-Perceiver: Pre-training Unified Architecture for Generic Perception for Zero-shot and Few-shot Tasks Xizhou Zhu Jinguo Zhu Hao Li Xiaoshi Wu Xiaogang Wang Hongsheng Li Xiaohua Wang Jifeng Dai 56 129 0 02 Dec 2021
Video-Text Pre-training with Learned Regions Rui Yan Mike Zheng Shou Yixiao Ge Alex Jinpeng Wang Xudong Lin Guanyu Cai Jinhui Tang 35 23 0 02 Dec 2021
MutualFormer: Multi-Modality Representation Learning via Cross-Diffusion Attention Xixi Wang Tianlin Li Bo Jiang Jin Tang Bin Luo ViT 37 7 0 02 Dec 2021
Iconary: A Pictionary-Based Game for Testing Multimodal Communication with Drawings and Text Christopher Clark Jordi Salvador Dustin Schwenk Derrick Bonafilia Mark Yatskar ... Aaron Sarnat Hannaneh Hajishirzi Aniruddha Kembhavi Oren Etzioni Ali Farhadi MLLM 30 3 0 01 Dec 2021
Object-aware Video-language Pre-training for Retrieval Alex Jinpeng Wang Yixiao Ge Guanyu Cai Rui Yan Xudong Lin Ying Shan Xiaohu Qie Mike Zheng Shou ViT VLM 27 79 0 01 Dec 2021
Explore the Potential Performance of Vision-and-Language Navigation Model: a Snapshot Ensemble Method Wenda Qin Teruhisa Misu Derry Wijaya UQCV LM&Ro 27 5 0 28 Nov 2021
VL-LTR: Learning Class-wise Visual-Linguistic Representation for Long-Tailed Visual Recognition Changyao Tian Wenhai Wang Xizhou Zhu Jifeng Dai Yu Qiao VLM 32 70 0 26 Nov 2021
ContIG: Self-supervised Multimodal Contrastive Learning for Medical Imaging with Genetics Aiham Taleb Matthias Kirchler Remo Monti C. Lippert SSL MedIm 36 54 0 26 Nov 2021
Predict, Prevent, and Evaluate: Disentangled Text-Driven Image Manipulation Empowered by Pre-Trained Vision-Language Model Zipeng Xu Tianwei Lin Hao Tang Fu Li Dongliang He N. Sebe Radu Timofte Luc Van Gool Errui Ding EGVM 43 41 0 26 Nov 2021
Generating More Pertinent Captions by Leveraging Semantics and Style on Multi-Source Datasets Marcella Cornia Lorenzo Baraldi G. Fiameni Rita Cucchiara 22 12 0 24 Nov 2021
Open-Vocabulary Instance Segmentation via Robust Cross-Modal Pseudo-Labeling Dat T. Huynh Jason Kuen Zhe Lin Jiuxiang Gu Ehsan Elhamifar ISeg VLM 35 84 0 24 Nov 2021
Scaling Up Vision-Language Pre-training for Image Captioning Xiaowei Hu Zhe Gan Jianfeng Wang Zhengyuan Yang Zicheng Liu Yumao Lu Lijuan Wang MLLM VLM 34 246 0 24 Nov 2021
UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling Zhengyuan Yang Zhe Gan Jianfeng Wang Xiaowei Hu Faisal Ahmed Zicheng Liu Yumao Lu Lijuan Wang 34 111 0 23 Nov 2021
RedCaps: web-curated image-text data created by the people, for the people Karan Desai Gaurav Kaul Zubin Aysola Justin Johnson 31 162 0 22 Nov 2021
Class-agnostic Object Detection with Multi-modal Transformer Muhammad Maaz H. Rasheed Salman Khan Fahad Shahbaz Khan Rao Muhammad Anwer Ming-Hsuan Yang 23 91 0 22 Nov 2021
TraVLR: Now You See It, Now You Don't! A Bimodal Dataset for Evaluating Visio-Linguistic Reasoning Keng Ji Chow Samson Tan MingSung Kan LRM 26 4 0 21 Nov 2021
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning Xu Yan Zhengcong Fei Shuhui Wang Qingming Huang Qi Tian VGen 40 4 0 19 Nov 2021
UFO: A UniFied TransfOrmer for Vision-Language Representation Learning Jianfeng Wang Xiaowei Hu Zhe Gan Zhengyuan Yang Xiyang Dai Zicheng Liu Yumao Lu Lijuan Wang ViT 31 57 0 19 Nov 2021
ClipCap: CLIP Prefix for Image Captioning Ron Mokady Amir Hertz Amit H. Bermano CLIP VLM 28 658 0 18 Nov 2021
Open Vocabulary Object Detection with Pseudo Bounding-Box Labels M. Gao Chen Xing Juan Carlos Niebles Junnan Li Ran Xu Wenhao Liu Caiming Xiong VLM ObjD 17 86 0 18 Nov 2021
EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching Yaya Shi Xu Yang Haiyang Xu Chunfen Yuan Bing Li Weiming Hu Zhengjun Zha 39 33 0 17 Nov 2021
Achieving Human Parity on Visual Question Answering Ming Yan Haiyang Xu Chenliang Li Junfeng Tian Bin Bi ... Ji Zhang Songfang Huang Fei Huang Luo Si Rong Jin 35 12 0 17 Nov 2021
Language bias in Visual Question Answering: A Survey and Taxonomy Desen Yuan 30 12 0 16 Nov 2021
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts Yan Zeng Xinsong Zhang Hang Li VLM CLIP 27 299 0 16 Nov 2021
Sentiment Analysis of Fashion Related Posts in Social Media Yifei Yuan W. Lam 14 7 0 15 Nov 2021
Explainable Semantic Space by Grounding Language to Vision with Cross-Modal Contrastive Learning Yizhen Zhang Minkyu Choi Kuan Han Zhongming Liu VLM 23 15 0 13 Nov 2021
A Survey of Visual Transformers Yang Liu Yao Zhang Yixin Wang Feng Hou Jin Yuan Jiang Tian Yang Zhang Zhongchao Shi Jianping Fan Zhiqiang He 3DGS ViT 79 332 0 11 Nov 2021
Multimodal End-to-End Group Emotion Recognition using Cross-Modal Attention Lev Evtodienko 19 5 0 10 Nov 2021
Multimodal Transformer with Variable-length Memory for Vision-and-Language Navigation Chuang Lin Yi Jiang Jianfei Cai Lizhen Qu Gholamreza Haffari Zehuan Yuan 41 32 0 10 Nov 2021
Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language Modeling Renrui Zhang Rongyao Fang Wei Zhang Peng Gao Kunchang Li Jifeng Dai Yu Qiao Hongsheng Li VLM 196 387 0 06 Nov 2021
An Empirical Study of Training End-to-End Vision-and-Language Transformers Zi-Yi Dou Yichong Xu Zhe Gan Jianfeng Wang Shuohang Wang ... Pengchuan Zhang Lu Yuan Nanyun Peng Zicheng Liu Michael Zeng VLM 38 369 0 03 Nov 2021
VLMo: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts Hangbo Bao Wenhui Wang Li Dong Qiang Liu Owais Khan Mohammed Kriti Aggarwal Subhojit Som Furu Wei VLM MLLM MoE 20 535 0 03 Nov 2021
Revisiting spatio-temporal layouts for compositional action recognition Gorjan Radevski Marie-Francine Moens Tinne Tuytelaars 38 26 0 02 Nov 2021
Perceptual Score: What Data Modalities Does Your Model Perceive? Itai Gat Idan Schwartz Alex Schwing 46 30 0 27 Oct 2021
MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal Emotion Recognition Jinming Zhao Ruichen Li Qin Jin Xinchao Wang Haizhou Li 19 25 0 27 Oct 2021
History Aware Multimodal Transformer for Vision-and-Language Navigation Shizhe Chen Pierre-Louis Guhur Cordelia Schmid Ivan Laptev LM&Ro 33 226 0 25 Oct 2021
Text-Based Person Search with Limited Data Xiaoping Han Sen He Li Zhang Tao Xiang 21 89 0 20 Oct 2021
VLDeformer: Vision-Language Decomposed Transformer for Fast Cross-Modal Retrieval Lisai Zhang Hongfa Wu Qingcai Chen Yimeng Deng Zhonghua Li Dejiang Kong Bo Zhao Joanna Siebert Yunpeng Han ViT VLM 33 20 0 20 Oct 2021
Unifying Multimodal Transformer for Bi-directional Image and Text Generation Yupan Huang Hongwei Xue Bei Liu Yutong Lu 21 57 0 19 Oct 2021
Label-Descriptive Patterns and Their Application to Characterizing Classification Errors Michael A. Hedderich Jonas Fischer Dietrich Klakow Jilles Vreeken 22 10 0 18 Oct 2021
TransFusion: Cross-view Fusion with Transformer for 3D Human Pose Estimation Haoyu Ma Liangjian Chen Deying Kong Zhe Wang Xingwei Liu Hao Tang Xiangyi Yan Yusheng Xie Shi-yao Lin Xiaohui Xie ViT 19 61 0 18 Oct 2021
Deep Transfer Learning & Beyond: Transformer Language Models in Information Systems Research Ross Gruetzemacher D. Paradice 30 30 0 18 Oct 2021
Understanding Multimodal Procedural Knowledge by Sequencing Multimodal Instructional Manuals Te-Lin Wu Alexander Spangher Pegah Alipoormolabashi Marjorie Freedman R. Weischedel Nanyun Peng 23 20 0 16 Oct 2021
A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models Woojeong Jin Yu Cheng Yelong Shen Weizhu Chen Xiang Ren VLM VPVLM MLLM 35 130 0 16 Oct 2021
Unsupervised Natural Language Inference Using PHL Triplet Generation Neeraj Varshney Pratyay Banerjee Tejas Gokhale Chitta Baral 31 9 0 16 Oct 2021
Semantically Distributed Robust Optimization for Vision-and-Language Inference Tejas Gokhale A. Chaudhary Pratyay Banerjee Chitta Baral Yezhou Yang 54 17 0 14 Oct 2021
Object-Region Video Transformers Roei Herzig Elad Ben-Avraham K. Mangalam Amir Bar Gal Chechik Anna Rohrbach Trevor Darrell Amir Globerson ViT 34 82 0 13 Oct 2021
Understanding of Emotion Perception from Art Digbalay Bose Krishna Somandepalli Souvik Kundu Rimita Lahiri Jonathan Gratch Shrikanth Narayanan 21 4 0 13 Oct 2021