Unifying Vision-and-Language Tasks via Text Generation

Unifying Vision-and-Language Tasks via Text Generation

4 February 2021

Joey Tianyi Zhou

Papers citing "Unifying Vision-and-Language Tasks via Text Generation"

18 / 368 papers shown

Title
Vision Guided Generative Pre-trained Language Models for Multimodal Abstractive Summarization Tiezheng Yu Wenliang Dai Zihan Liu Pascale Fung 32 73 0 06 Sep 2021
WebQA: Multihop and Multimodal QA Yingshan Chang M. Narang Hisami Suzuki Guihong Cao Jianfeng Gao Yonatan Bisk LRM 10 78 0 01 Sep 2021
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision Zirui Wang Jiahui Yu Adams Wei Yu Zihang Dai Yulia Tsvetkov Yuan Cao VLM MLLM 51 779 0 24 Aug 2021
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Junnan Li Ramprasaath R. Selvaraju Akhilesh Deepak Gotmare Shafiq R. Joty Caiming Xiong Guosheng Lin FaML 68 1,889 0 16 Jul 2021
Exploiting the relationship between visual and textual features in social networks for image classification with zero-shot deep learning Luis Lucas David Tomás Jose Garcia-Rodriguez VLM CLIP 11 5 0 08 Jul 2021
Multimodal Few-Shot Learning with Frozen Language Models Maria Tsimpoukelli Jacob Menick Serkan Cabi S. M. Ali Eslami Oriol Vinyals Felix Hill MLLM 55 749 0 25 Jun 2021
Assessing Multilingual Fairness in Pre-trained Multimodal Representations Jialu Wang Yang Liu Qing Guo EGVM 26 35 0 12 Jun 2021
Modeling Text-visual Mutual Dependency for Multi-modal Dialog Generation Shuhe Wang Yuxian Meng Xiaofei Sun Fei Wu Rongbin Ouyang Rui Yan Tianwei Zhang Jiwei Li 21 15 0 30 May 2021
Rethinking Search: Making Domain Experts out of Dilettantes Donald Metzler Yi Tay Dara Bahri Marc Najork LRM 35 46 0 05 May 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 57 861 0 26 Apr 2021
Playing Lottery Tickets with Vision and Language Zhe Gan Yen-Chun Chen Linjie Li Tianlong Chen Yu Cheng Shuohang Wang Jingjing Liu Lijuan Wang Zicheng Liu VLM 106 54 0 23 Apr 2021
Towards General Purpose Vision Systems Tanmay Gupta Amita Kamath Aniruddha Kembhavi Derek Hoiem 11 50 0 01 Apr 2021
Self-supervised Image-text Pre-training With Mixed Data In Chest X-rays Xiaosong Wang Ziyue Xu Leo K. Tam Dong Yang Daguang Xu ViT MedIm 17 23 0 30 Mar 2021
Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling Jie Lei Linjie Li Luowei Zhou Zhe Gan Tamara L. Berg Joey Tianyi Zhou Jingjing Liu CLIP 37 647 0 11 Feb 2021
VinVL: Revisiting Visual Representations in Vision-Language Models Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao ObjD VLM 260 157 0 02 Jan 2021
Making Pre-trained Language Models Better Few-shot Learners Tianyu Gao Adam Fisch Danqi Chen 243 1,919 0 31 Dec 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,959 0 20 Apr 2018