ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,119 papers shown

Title
Factorized Contrastive Learning: Going Beyond Multi-view Redundancy Paul Pu Liang Zihao Deng Martin Q. Ma James Zou Louis-Philippe Morency Ruslan Salakhutdinov SSL 98 56 0 08 Jun 2023
Dealing with Semantic Underspecification in Multimodal NLP Sandro Pezzelle 73 10 0 08 Jun 2023
Object Detection with Transformers: A Review Tahira Shehzadi K. Hashmi D. Stricker Muhammad Zeshan Afzal ViT MU 109 29 0 07 Jun 2023
On the Generalization of Multi-modal Contrastive Learning Qi Zhang Yifei Wang Yisen Wang 79 26 0 07 Jun 2023
Q: How to Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images! Zaid Khan B. Vijaykumar S. Schulter Xiang Yu Y. Fu Manmohan Chandraker VLM MLLM 98 18 0 06 Jun 2023
MolFM: A Multimodal Molecular Foundation Model Yi Luo Kai Yang Massimo Hong Xingyi Liu Zaiqing Nie 78 40 0 06 Jun 2023
Referring Expression Comprehension Using Language Adaptive Inference Wei Su Peihan Miao Huanzhang Dou Yongjian Fu Xi Li ObjD 65 20 0 06 Jun 2023
Diversifying Joint Vision-Language Tokenization Learning Vardaan Pahuja A. Piergiovanni A. Angelova 80 0 0 06 Jun 2023
MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning Jianghui Wang Yuxuan Wang Dongyan Zhao Zilong Zheng 104 1 0 04 Jun 2023
Table and Image Generation for Investigating Knowledge of Entities in Pre-trained Vision and Language Models Hidetaka Kamigaito Katsuhiko Hayashi Taro Watanabe VLM 65 1 0 03 Jun 2023
Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models Shuo Chen Jindong Gu Zhen Han Yunpu Ma Philip Torr Volker Tresp VPVLM VLM 127 21 0 03 Jun 2023
"Let's not Quote out of Context": Unified Vision-Language Pretraining for Context Assisted Image Captioning Abisek Rajakumar Kalarani P. Bhattacharyya Niyati Chhaya Sumit Shekhar CoGe VLM 124 9 0 01 Jun 2023
UniDiff: Advancing Vision-Language Models with Generative and Discriminative Learning Xiao Dong Runhu Huang Xiaoyong Wei Zequn Jie Jianxing Yu Jian Yin Xiaodan Liang VLM DiffM 77 1 0 01 Jun 2023
Make Pre-trained Model Reversible: From Parameter to Memory Efficient Fine-Tuning Baohao Liao Shaomu Tan Christof Monz KELM 105 30 0 01 Jun 2023
Adapting Pre-trained Language Models to Vision-Language Tasks via Dynamic Visual Prompting Shubin Huang Qiong Wu Yiyi Zhou Weijie Chen Rongsheng Zhang Xiaoshuai Sun Rongrong Ji VLM VPVLM LRM 59 0 0 01 Jun 2023
PV2TEA: Patching Visual Modality to Textual-Established Information Extraction Hejie Cui Rongmei Lin Nasser Zalmout Chenwei Zhang Jingbo Shang Carl Yang Xian Li VLM 87 4 0 01 Jun 2023
Prompt Algebra for Task Composition Pramuditha Perera Matthew Trager Luca Zancato Alessandro Achille Stefano Soatto VLM 77 8 0 01 Jun 2023
GPT4Image: Large Pre-trained Models Help Vision Models Learn Better on Perception Task Ning Ding Yehui Tang Zhongqian Fu Chaoting Xu Kai Han Yunhe Wang MLLM VLM 57 2 0 01 Jun 2023
ManagerTower: Aggregating the Insights of Uni-Modal Experts for Vision-Language Representation Learning Xiao Xu Bei Li Chenfei Wu Shao-Yen Tseng Anahita Bhiwandiwalla Shachar Rosenman Vasudev Lal Wanxiang Che Nan Duan AIFin VLM 78 4 0 31 May 2023
Chatting Makes Perfect: Chat-based Image Retrieval Matan Levy Rami Ben-Ari N. Darshan Dani Lischinski 138 16 0 31 May 2023
Joint Adaptive Representations for Image-Language Learning A. Piergiovanni A. Angelova VLM 76 0 0 31 May 2023
Attention-Based Methods For Audio Question Answering Parthasaarathy Sudarsanam Tuomas Virtanen 73 3 0 31 May 2023
Language-Conditioned Imitation Learning with Base Skill Priors under Unstructured Data Hongkuan Zhou Zhenshan Bing Xiangtong Yao Xiaojie Su Chenguang Yang Kai-Qi Huang Alois C. Knoll LM&Ro 92 20 0 30 May 2023
Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge Xingyu Fu Shenmin Zhang Gukyeong Kwon Pramuditha Perera Henghui Zhu ... Zhiguo Wang Vittorio Castelli Patrick Ng Dan Roth Bing Xiang 87 22 0 30 May 2023
Scalable Performance Analysis for Vision-Language Models Santiago Castro Oana Ignat Rada Mihalcea VLM 73 2 0 30 May 2023
Enhanced Chart Understanding in Vision and Language Task via Cross-modal Pre-training on Plot Table Pairs Mingyang Zhou Yi R. Fung Long Chen Christopher Thomas Heng Ji Shih-Fu Chang 110 13 0 29 May 2023
HGT: A Hierarchical GCN-Based Transformer for Multimodal Periprosthetic Joint Infection Diagnosis Using CT Images and Text Ruiyang Li Fujun Yang Xianjie Liu Hon-Yi Shi 75 0 0 29 May 2023
Deeply Coupled Cross-Modal Prompt Learning Xuejing Liu Wei Tang Jinghui Lu Rui Zhao Zhaojun Guo Fei Tan VLM 77 17 0 29 May 2023
MemeGraphs: Linking Memes to Knowledge Graphs Vasiliki Kougia Simon Fetzel Thomas Kirchmair Erion cCano Sina Moayed Baharlou Sahand Sharifzadeh Benjamin Roth 89 11 0 28 May 2023
KAFA: Rethinking Image Ad Understanding with Knowledge-Augmented Feature Adaptation of Vision-Language Models Zhiwei Jia P. Narayana Arjun Reddy Akula G. Pruthi Haoran Su Sugato Basu Varun Jampani VLM OffRL 86 4 0 28 May 2023
MPCHAT: Towards Multimodal Persona-Grounded Conversation Jaewoo Ahn Yeda Song Sangdoo Yun Gunhee Kim 53 22 0 27 May 2023
Modularized Zero-shot VQA with Pre-trained Models Rui Cao Jing Jiang LRM 93 3 0 27 May 2023
BIG-C: a Multimodal Multi-Purpose Dataset for Bemba Claytone Sikasote Eunice Mukonde Md Mahfuz Ibn Alam Antonios Anastasopoulos 63 8 0 26 May 2023
Calibration of Transformer-based Models for Identifying Stress and Depression in Social Media Loukas Ilias S. Mouzakitis D. Askounis 83 46 0 26 May 2023
HAAV: Hierarchical Aggregation of Augmented Views for Image Captioning Chia-Wen Kuo Z. Kira 87 23 0 25 May 2023
Training Data Extraction From Pre-trained Language Models: A Survey Shotaro Ishihara 122 48 0 25 May 2023
MEMEX: Detecting Explanatory Evidence for Memes via Knowledge-Enriched Contextualization Shivam Sharma S Ramaneswaran Udit Arora Md. Shad Akhtar Tanmoy Chakraborty 77 9 0 25 May 2023
READ: Recurrent Adaptation of Large Transformers Sida I. Wang John Nguyen Ke Li Carole-Jean Wu 55 11 0 24 May 2023
SmartTrim: Adaptive Tokens and Attention Pruning for Efficient Vision-Language Models Zekun Wang Jingchang Chen Wangchunshu Zhou Haichao Zhu Jiafeng Liang Liping Shan Ming Liu Dongliang Xu Qing Yang Bing Qin VLM 102 5 0 24 May 2023
MMNet: Multi-Mask Network for Referring Image Segmentation Yimin Yan Xingjian He Wenxuan Wan Qingbin Liu EgoV 62 2 0 24 May 2023
Meta-learning For Vision-and-language Cross-lingual Transfer Hanxu Hu Frank Keller VLM 85 2 0 24 May 2023
PaCE: Unified Multi-modal Dialogue Pre-training with Progressive and Compositional Experts Yunshui Li Binyuan Hui Zhichao Yin Min Yang Fei Huang Yongbin Li MoE 91 21 0 24 May 2023
NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for Autonomous Driving Scenario Tianwen Qian Jingjing Chen Linhai Zhuo Yang Jiao Yueping Jiang 102 158 0 24 May 2023
Exploring Diverse In-Context Configurations for Image Captioning Xu Yang Yongliang Wu Mingzhuo Yang Haokun Chen Xin Geng MLLM 87 64 0 24 May 2023
UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning Ahmed Masry P. Kavehzadeh Do Xuan Long Enamul Hoque Shafiq Joty LRM 95 113 0 24 May 2023
RE $^2$ : Region-Aware Relation Extraction from Visually Rich Documents Pritika Ramu Sijia Wang Lalla Mouatadid Joy Rimchala Lifu Huang 56 0 0 24 May 2023
Weakly-Supervised Learning of Visual Relations in Multimodal Pretraining Emanuele Bugliarello Aida Nematzadeh Lisa Anne Hendricks SSL 113 5 0 23 May 2023
Training Transitive and Commutative Multimodal Transformers with LoReTTa Manuel Tran Yashin Dicente Cid Amal Lahiani Fabian J. Theis Tingying Peng Eldad Klaiman 77 2 0 23 May 2023
DetGPT: Detect What You Need via Reasoning Renjie Pi Jiahui Gao Shizhe Diao Boyao Wang Hanze Dong ... Lewei Yao Jianhua Han Hang Xu Lingpeng Kong Tong Zhang Tong Zhang LRM LM&Ro 86 99 0 23 May 2023
EDIS: Entity-Driven Image Search over Multimodal Web Content Siqi Liu Weixi Feng Tsu-Jui Fu Wenhu Chen Wenjie Wang VLM 119 10 0 23 May 2023