LXMERT: Learning Cross-Modality Encoder Representations from Transformers

20 August 2019

Papers citing "LXMERT: Learning Cross-Modality Encoder Representations from Transformers"

50 / 1,512 papers shown

Title
Generic Attention-model Explainability by Weighted Relevance Accumulation Yiming Huang Ao Jia Xiaodan Zhang Jiawei Zhang 18 1 0 20 Aug 2023
Whether you can locate or not? Interactive Referring Expression Generation Fulong Ye Yuxing Long Fangxiang Feng Xiaojie Wang 34 4 0 19 Aug 2023
Towards Grounded Visual Spatial Reasoning in Multi-Modal Vision Language Models Navid Rajabi Jana Kosecka VLM 34 11 0 18 Aug 2023
Artificial-Spiking Hierarchical Networks for Vision-Language Representation Learning Ye-Ting Chen Siyu Zhang Yaoru Sun Weijian Liang Haoran Wang 46 0 0 18 Aug 2023
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model Chuhan Zhang Ankush Gupta Andrew Zisserman VLM 32 20 0 15 Aug 2023
Cross-Domain Product Representation Learning for Rich-Content E-Commerce Xuehan Bai Yan Li Yong Cheng Wenjie Yang Quanming Chen Han Li 19 3 0 10 Aug 2023
Bird's-Eye-View Scene Graph for Vision-Language Navigation Ruitao Liu Xiaohan Wang Wenguan Wang Yi Yang 25 50 0 09 Aug 2023
3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment Ziyu Zhu Xiaojian Ma Yixin Chen Zhidong Deng Siyuan Huang Qing Li LM&Ro 34 106 0 08 Aug 2023
Learning Concise and Descriptive Attributes for Visual Recognition Andy Yan Yu Wang Yiwu Zhong Chengyu Dong Zexue He Yujie Lu William Wang Jingbo Shang Julian McAuley VLM 27 60 0 07 Aug 2023
Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models Zheng Ma Mianzhi Pan Wenhan Wu Ka Leong Cheng Jianbing Zhang Shujian Huang Jiajun Chen VLM CoGe 31 3 0 06 Aug 2023
Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation Haowei Wang Jiji Tang Jiayi Ji Xiaoshuai Sun Rongsheng Zhang ... Minda Zhao Lincheng Li zeng zhao Tangjie Lv Rongrong Ji 3DV 23 13 0 06 Aug 2023
Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP Qihang Yu Ju He XueQing Deng Xiaohui Shen Liang-Chieh Chen VLM CLIP 45 136 0 04 Aug 2023
Bridging the Gap: Exploring the Capabilities of Bridge-Architectures for Complex Visual Reasoning Tasks Kousik Rajesh Mrigank Raman M. A. Karim Pranit Chawla VLM 25 2 0 31 Jul 2023
Scaling Data Generation in Vision-and-Language Navigation Zun Wang Jialu Li Yicong Hong Yi Wang Qi Wu Joey Tianyi Zhou Stephen Gould Hao Tan Yu Qiao LM&Ro 43 56 0 28 Jul 2023
'What are you referring to?' Evaluating the Ability of Multi-Modal Dialogue Models to Process Clarificational Exchanges Javier Chiyah-Garcia Alessandro Suglia Arash Eshghi Helen F. Hastie 29 6 0 28 Jul 2023
MESED: A Multi-modal Entity Set Expansion Dataset with Fine-grained Semantic Classes and Hard Negative Entities Yong Li Tingwei Lu Hai-Tao Zheng Tianyu Yu Shulin Huang Haitao Zheng Rui Zhang Jun Yuan 56 11 0 27 Jul 2023
LOIS: Looking Out of Instance Semantics for Visual Question Answering Siyu Zhang Ye Chen Yaoru Sun Fang Wang Haibo Shi Haoran Wang 25 4 0 26 Jul 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming Yang Fahad Shahbaz Khan VLM 40 119 0 25 Jul 2023
GridMM: Grid Memory Map for Vision-and-Language Navigation Zihan Wang Xiangyang Li Jiahao Yang Yeqi Liu Shuqiang Jiang 33 52 0 24 Jul 2023
Robust Visual Question Answering: Datasets, Methods, and Future Challenges Jie Ma Pinghui Wang Dechen Kong Zewei Wang Jun Liu Hongbin Pei Junzhou Zhao OOD 32 18 0 21 Jul 2023
Exploring the Landscape of Natural Language Processing Research Tim Schopf Karim Arabi Florian Matthes 21 13 0 20 Jul 2023
Findings of Factify 2: Multimodal Fake News Detection S. Suryavardan Shreyash Mishra Megha Chakraborty Parth Patwa Anku Rani ... Amitava Das Amit P. Sheth Manoj Kumar Chinnakotla Asif Ekbal Srijan Kumar 30 14 0 19 Jul 2023
Towards a performance analysis on pre-trained Visual Question Answering models for autonomous driving Kaavya Rekanar Ciarán Eising Ganesh Sistu Martin Hayes 13 3 0 18 Jul 2023
BUS:Efficient and Effective Vision-language Pre-training with Bottom-Up Patch Summarization Chaoya Jiang Haiyang Xu Wei Ye Qinghao Ye Chenliang Li Mingshi Yan Bin Bi Shikun Zhang Fei Huang Songfang Huang VLM 34 9 0 17 Jul 2023
PAT: Parallel Attention Transformer for Visual Question Answering in Vietnamese Nghia Hieu Nguyen Kiet Van Nguyen 16 2 0 17 Jul 2023
Breaking Down the Task: A Unit-Grained Hybrid Training Framework for Vision and Language Decision Making Ruipu Luo Jiwen Zhang Zhongyu Wei VLM 16 0 0 16 Jul 2023
Improving Zero-Shot Generalization for CLIP with Synthesized Prompts Zhilin Wang Jian Liang Ran He Nana Xu Zilei Wang Tien-Ping Tan VLM 29 51 0 14 Jul 2023
Bootstrapping Vision-Language Learning with Decoupled Language Pre-training Yiren Jian Chongyang Gao Soroush Vosoughi VLM MLLM 37 25 0 13 Jul 2023
One-Versus-Others Attention: Scalable Multimodal Integration for Clinical Data Michal Golovanevsky Eva Schiller Akira Nair Ritambhara Singh Carsten Eickhoff 23 2 0 11 Jul 2023
Vision Language Transformers: A Survey Clayton Fields C. Kennington VLM 31 5 0 06 Jul 2023
Structure Guided Multi-modal Pre-trained Transformer for Knowledge Graph Reasoning K. Liang Sihang Zhou Yue Liu Lingyuan Meng Meng Liu Xinwang Liu 36 15 0 06 Jul 2023
Human Inspired Progressive Alignment and Comparative Learning for Grounded Word Acquisition Yuwei Bao B. Lattimer J. Chai CLL 46 1 0 05 Jul 2023
Localized Questions in Medical Visual Question Answering Sergio Tascon-Morales Pablo Márquez-Neila Raphael Sznitman 24 8 0 03 Jul 2023
Learning Differentiable Logic Programs for Abstract Visual Reasoning Hikaru Shindo Viktor Pfanschilling Devendra Singh Dhami Kristian Kersting NAI 34 6 0 03 Jul 2023
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding Rui Sun Zhecan Wang Haoxuan You Noel Codella Kai-Wei Chang Shih-Fu Chang CLIP 34 3 0 03 Jul 2023
S-Omninet: Structured Data Enhanced Universal Multimodal Learning Architecture Ye Xue Diego Klabjan J. Utke 18 0 0 01 Jul 2023
MPM: A Unified 2D-3D Human Pose Representation via Masked Pose Modeling Zhenyu Zhang Wenhao Chai Zhongyu Jiang Tianbo Ye Xiuming Zhang Lei Li Gaoang Wang 3DH 31 4 0 29 Jun 2023
Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question Answering A. S. Penamakuri Manish Gupta Mithun Das Gupta Anand Mishra 45 7 0 29 Jun 2023
Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering Alireza Salemi Mahta Rafiee Hamed Zamani 37 8 0 28 Jun 2023
Reconstructing the Hemodynamic Response Function via a Bimodal Transformer Yoni Choukroun Lior Golgher P. Blinder L. Wolf MedIm 24 0 0 28 Jun 2023
Towards Open Vocabulary Learning: A Survey Jianzong Wu Xiangtai Li Shilin Xu Haobo Yuan Henghui Ding ... Jiangning Zhang Yu Tong Xudong Jiang Guohao Li Dacheng Tao ObjD VLM 47 137 0 28 Jun 2023
Approximated Prompt Tuning for Vision-Language Pre-trained Models Qiong Wu Shubin Huang Yiyi Zhou Pingyang Dai Annan Shu Guannan Jiang Rongrong Ji VLM VPVLM 27 2 0 27 Jun 2023
Switch-BERT: Learning to Model Multimodal Interactions by Switching Attention and Input Qingpei Guo Kaisheng Yao Wei Chu MLLM 28 4 0 25 Jun 2023
Generative Multimodal Entity Linking Senbao Shi Zhenran Xu Baotian Hu Hao Fei MLLM VLM 32 5 0 22 Jun 2023
Exploring the Role of Audio in Video Captioning Yuhan Shen Linjie Yang Longyin Wen Haichao Yu Ehsan Elhamifar Heng Wang 31 2 0 21 Jun 2023
Recurrent Action Transformer with Memory A. Staroverov A. Bessonov Dmitry A. Yudin A. Kovalev Aleksandr I. Panov OffRL 41 4 0 15 Jun 2023
Contrasting Intra-Modal and Ranking Cross-Modal Hard Negatives to Enhance Visio-Linguistic Compositional Understanding Le Zhang Rabiul Awal Aishwarya Agrawal CoGe VLM 36 10 0 15 Jun 2023
Efficient Token-Guided Image-Text Retrieval with Consistent Multimodal Contrastive Training Chong Liu Yuqi Zhang Hongsong Wang Weihua Chen F. Wang Yan Huang Yixing Shen Liang Wang 24 25 0 15 Jun 2023
Improving Selective Visual Question Answering by Learning from Your Peers Corentin Dancette Spencer Whitehead Rishabh Maheshwary Ramakrishna Vedantam Stefan Scherer Xinlei Chen Matthieu Cord Marcus Rohrbach AAML OOD 40 16 0 14 Jun 2023
AssistGPT: A General Multi-modal Assistant that can Plan, Execute, Inspect, and Learn Difei Gao Lei Ji Luowei Zhou Kevin Lin Joya Chen Zihan Fan Mike Zheng Shou MLLM 35 72 0 14 Jun 2023