v1v2v3v4 (latest)

VL-BERT: Pre-training of Generic Visual-Linguistic Representations

22 August 2019

Weijie Su

ArXiv (abs)PDF HTML Github (740★)

Papers citing "VL-BERT: Pre-training of Generic Visual-Linguistic Representations"

50 / 1,020 papers shown

Title
Disentangling Hate in Online Memes Rui Cao Ziqing Fan Roy Ka-wei Lee Wen-Haw Chong Jing Jiang 65 81 0 09 Aug 2021
OVIS: Open-Vocabulary Visual Instance Search via Visual-Semantic Aligned Representation Learning Sheng Liu Kevin Qinghong Lin Lijuan Wang Junsong Yuan Zicheng Liu VLM 33 3 0 08 Aug 2021
StrucTexT: Structured Text Understanding with Multi-Modal Transformers Yulin Li Yuxi Qian Yuchen Yu Xiameng Qin Chengquan Zhang Yan Liu Kun Yao Junyu Han Jingtuo Liu Errui Ding 102 117 0 06 Aug 2021
StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators Rinon Gal Or Patashnik Haggai Maron Gal Chechik Daniel Cohen-Or CLIP VLM 90 232 0 02 Aug 2021
Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding Heng Zhao Qiufeng Wang Yew-Soon Ong ObjD 74 26 0 31 Jul 2021
Product1M: Towards Weakly Supervised Instance-Level Product Retrieval via Cross-modal Pretraining Xunlin Zhan Yangxin Wu Xiao Dong Yunchao Wei Minlong Lu Yichi Zhang Hang Xu Xiaodan Liang ViT 92 67 0 30 Jul 2021
UIBert: Learning Generic Multimodal Representations for UI Understanding Chongyang Bai Xiaoxue Zang Ying Xu Srinivas Sunkara Abhinav Rastogi Jindong Chen Blaise Agüera y Arcas 90 95 0 29 Jul 2021
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing Pengfei Liu Weizhe Yuan Jinlan Fu Zhengbao Jiang Hiroaki Hayashi Graham Neubig VLM SyDa 335 4,050 0 28 Jul 2021
Exceeding the Limits of Visual-Linguistic Multi-Task Learning Cameron R. Wolfe Keld T. Lundgaard VLM 76 2 0 27 Jul 2021
Spatial-Temporal Transformer for Dynamic Scene Graph Generation Yuren Cong Wentong Liao H. Ackermann Bodo Rosenhahn M. Yang ViT 72 129 0 26 Jul 2021
Multi-stage Pre-training over Simplified Multimodal Pre-training Models Tongtong Liu Fangxiang Feng Xiaojie Wang 38 13 0 22 Jul 2021
DRDF: Determining the Importance of Different Multimodal Information with Dual-Router Dynamic Framework Haiwen Hong Xuan Jin Yin Zhang Yunqing Hu Jingfeng Zhang Yuan He Hui Xue MoE 34 0 0 21 Jul 2021
Neural Abstructions: Abstractions that Support Construction for Grounded Language Learning Kaylee Burns Christopher D. Manning Li Fei-Fei 49 0 0 20 Jul 2021
Separating Skills and Concepts for Novel Visual Question Answering Spencer Whitehead Hui Wu Heng Ji Rogerio Feris Kate Saenko CoGe 95 34 0 19 Jul 2021
Constructing Multi-Modal Dialogue Dataset by Replacing Text with Semantically Relevant Images Nyoungwoo Lee Suwon Shin Jaegul Choo Ho‐Jin Choi S. Myaeng 60 27 0 19 Jul 2021
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Junnan Li Ramprasaath R. Selvaraju Akhilesh Deepak Gotmare Shafiq Joty Caiming Xiong Guosheng Lin FaML 330 1,988 0 16 Jul 2021
MultiBench: Multiscale Benchmarks for Multimodal Representation Learning Paul Pu Liang Yiwei Lyu Xiang Fan Zetian Wu Yun Cheng ... Peter Wu Michelle A. Lee Yuke Zhu Ruslan Salakhutdinov Louis-Philippe Morency VLM 111 172 0 15 Jul 2021
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Joey Tianyi Zhou Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 272 412 0 13 Jul 2021
Learning Vision-Guided Quadrupedal Locomotion End-to-End with Cross-Modal Transformers Ruihan Yang Minghao Zhang Nicklas Hansen Huazhe Xu Xiaolong Wang OffRL 85 108 0 08 Jul 2021
Case Relation Transformer: A Crossmodal Language Generation Model for Fetching Instructions Motonari Kambara K. Sugiura ViT 62 6 0 02 Jul 2021
Productivity, Portability, Performance: Data-Centric Python Yiheng Wang Yao Zhang Yanzhang Wang Yan Wan Jiao Wang Zhongyuan Wu Yuhao Yang Bowen She 169 101 0 01 Jul 2021
OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation Jing Liu Xinxin Zhu Fei Liu Longteng Guo Zijia Zhao ... Weining Wang Hanqing Lu Shiyu Zhou Jiajun Zhang Jinqiao Wang 82 38 0 01 Jul 2021
Multimodal Few-Shot Learning with Frozen Language Models Maria Tsimpoukelli Jacob Menick Serkan Cabi S. M. Ali Eslami Oriol Vinyals Felix Hill MLLM 242 793 0 25 Jun 2021
Probing Inter-modality: Visual Parsing with Self-Attention for Vision-Language Pre-training Hongwei Xue Yupan Huang Bei Liu Houwen Peng Jianlong Fu Houqiang Li Jiebo Luo 94 89 0 25 Jun 2021
A Picture May Be Worth a Hundred Words for Visual Question Answering Yusuke Hirota Noa Garcia Mayu Otani Chenhui Chu Yuta Nakashima Ittetsu Taniguchi Takao Onoye ViT 35 4 0 25 Jun 2021
A Transformer-based Cross-modal Fusion Model with Adversarial Training for VQA Challenge 2021 Keda Lu Bo Fang Kuan-Yu Chen ViT 38 2 0 24 Jun 2021
DocFormer: End-to-End Transformer for Document Understanding Srikar Appalaraju Bhavan A. Jasani Bhargava Urala Kota Yusheng Xie R. Manmatha ViT 117 281 0 22 Jun 2021
Towards Long-Form Video Understanding Chaoxia Wu Philipp Krahenbuhl VLM ViT 119 170 0 21 Jun 2021
Efficient Self-supervised Vision Transformers for Representation Learning Chunyuan Li Jianwei Yang Pengchuan Zhang Mei Gao Bin Xiao Xiyang Dai Lu Yuan Jianfeng Gao ViT 108 214 0 17 Jun 2021
Pre-Trained Models: Past, Present and Future Xu Han Zhengyan Zhang Ning Ding Yuxian Gu Xiao Liu ... Jie Tang Ji-Rong Wen Jinhui Yuan Wayne Xin Zhao Jun Zhu AIFin MQ AI4MH 177 863 0 14 Jun 2021
Assessing Multilingual Fairness in Pre-trained Multimodal Representations Jialu Wang Yang Liu Xinze Wang EGVM 102 37 0 12 Jun 2021
Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers Mandela Patrick Dylan Campbell Yuki M. Asano Ishan Misra Ishan Misra Florian Metze Christoph Feichtenhofer Andrea Vedaldi João F. Henriques 114 282 0 09 Jun 2021
A Survey of Transformers Tianyang Lin Yuxin Wang Xiangyang Liu Xipeng Qiu ViT 202 1,150 0 08 Jun 2021
Chasing Sparsity in Vision Transformers: An End-to-End Exploration Tianlong Chen Yu Cheng Zhe Gan Lu Yuan Lei Zhang Zhangyang Wang ViT 70 224 0 08 Jun 2021
BERTGEN: Multi-task Generation through BERT Faidon Mitzalis Ozan Caglayan Pranava Madhyastha Lucia Specia VLM 48 7 0 07 Jun 2021
E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual Learning Haiyang Xu Ming Yan Chenliang Li Bin Bi Songfang Huang Wenming Xiao Fei Huang VLM 113 119 0 03 Jun 2021
Attention mechanisms and deep learning for machine vision: A survey of the state of the art A. M. Hafiz S. A. Parah R. A. Bhat 93 45 0 03 Jun 2021
Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA Models Linjie Li Jie Lei Zhe Gan Jingjing Liu AAML VLM 112 75 0 01 Jun 2021
M6-T: Exploring Sparse Expert Models and Beyond An Yang Junyang Lin Rui Men Chang Zhou Le Jiang ... Dingyang Zhang Wei Lin Lin Qu Jingren Zhou Hongxia Yang MoE 122 24 0 31 May 2021
Rethinking the constraints of multimodal fusion: case study in Weakly-Supervised Audio-Visual Video Parsing Jianning Wu Zhuqing Jiang S. Wen Aidong Men Haiying Wang 84 1 0 30 May 2021
M6-UFC: Unifying Multi-Modal Controls for Conditional Image Synthesis via Non-Autoregressive Generative Transformers Zhu Zhang Jianxin Ma Chang Zhou Rui Men Zhikang Li Ming Ding Jie Tang Jingren Zhou Hongxia Yang 98 47 0 29 May 2021
Learning Relation Alignment for Calibrated Cross-modal Retrieval Shuhuai Ren Junyang Lin Guangxiang Zhao Rui Men An Yang Jingren Zhou Xu Sun Hongxia Yang 82 38 0 28 May 2021
SSAN: Separable Self-Attention Network for Video Representation Learning Xudong Guo Xun Guo Yan Lu ViT AI4TS 55 26 0 27 May 2021
Multi-Modal Semantic Inconsistency Detection in Social Media News Posts S. McCrae Kehan Wang A. Zakhor 60 15 0 26 May 2021
Read, Listen, and See: Leveraging Multimodal Information Helps Chinese Spell Checking Heng-Da Xu Zhongli Li Qingyu Zhou Chao Li Zizhen Wang Yunbo Cao Heyan Huang Xian-Ling Mao 98 97 0 26 May 2021
Context-Sensitive Visualization of Deep Learning Natural Language Processing Models A. Dunn Diana Inkpen Razvan Andonie 44 8 0 25 May 2021
Understanding Mobile GUI: from Pixel-Words to Screen-Sentences Jingwen Fu Xiaoyi Zhang Yuwang Wang Wenjun Zeng Sam Yang Grayson Hilliard 66 15 0 25 May 2021
Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic Representation Tao Tu Q. Ping Govind Thattai Gokhan Tur Premkumar Natarajan 75 18 0 24 May 2021
Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training Jong Hak Moon HyunGyung Lee W. Shin Young-Hak Kim Edward Choi MedIm 110 161 0 24 May 2021
Human-centric Relation Segmentation: Dataset and Solution Si Liu Zitian Wang Yulu Gao Lejian Ren Yue Liao Guanghui Ren Bo Li Shuicheng Yan 40 12 0 24 May 2021