v1v2v3v4 (latest)

VL-BERT: Pre-training of Generic Visual-Linguistic Representations

22 August 2019

Weijie Su

ArXiv (abs)PDF HTML Github (740★)

Papers citing "VL-BERT: Pre-training of Generic Visual-Linguistic Representations"

50 / 1,020 papers shown

Title
Improving Vision-and-Language Reasoning via Spatial Relations Modeling Cheng Yang Rui Xu Ye Guo Peixiang Huang Yiru Chen Wenkui Ding Zhongyuan Wang Hong Zhou LRM 59 6 0 09 Nov 2023
Self-Supervised Learning for Visual Relationship Detection through Masked Bounding Box Reconstruction Zacharias Anastasakis Dimitrios Mallis Markos Diomataris George Alexandridis Stefanos D. Kollias Vassilis Pitsikalis 57 2 0 08 Nov 2023
Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation for Grounding-Based Vision and Language Models Jingru Yi Burak Uzkent Oana Ignat Zili Li Amanmeet Garg Xiang Yu Linda Liu VLM 78 1 0 05 Nov 2023
Lost Your Style? Navigating with Semantic-Level Approach for Text-to-Outfit Retrieval Junkyu Jang Eugene Hwang Sung-Hyuk Park 49 0 0 03 Nov 2023
MetaReVision: Meta-Learning with Retrieval for Visually Grounded Compositional Concept Acquisition Guangyue Xu Parisa Kordjamshidi Joyce Chai 60 2 0 02 Nov 2023
From Image to Language: A Critical Analysis of Visual Question Answering (VQA) Approaches, Challenges, and Opportunities Md Farhan Ishmam Md Sakib Hossain Shovon M. F. Mridha Nilanjan Dey 151 44 0 01 Nov 2023
Harvest Video Foundation Models via Efficient Post-Pretraining Yizhuo Li Kunchang Li Yinan He Yi Wang Yali Wang Limin Wang Yu Qiao Ping Luo CLIP VLM VGen 108 2 0 30 Oct 2023
Generating Context-Aware Natural Answers for Questions in 3D Scenes Mohammed Munzer Dwedari Matthias Niessner Dave Zhenyu Chen 63 3 0 30 Oct 2023
Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting Hejie Cui Xinyu Fang Zihan Zhang Ran Xu Xuan Kan Xin Liu Yue Yu Manling Li Yangqiu Song Carl Yang VLM 51 4 0 28 Oct 2023
RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments Mengxue Qu Yu-Huan Wu Wu Liu Xiaodan Liang Jingkuan Song Yao-Min Zhao Yunchao Wei 43 17 0 26 Oct 2023
CAD -- Contextual Multi-modal Alignment for Dynamic AVQA Asmar Nadeem Adrian Hilton R. Dawes Graham A. Thomas A. Mustafa 80 10 0 25 Oct 2023
$$\mathbb{VD}$-$\mathbb{GR}$: Boosting $\mathbb{V}$isual $\mathbb{D}$ialog with Cascaded Spatial-Temporal Multi-Modal $\mathbb{GR}$aphs$ $\mathbb{VD}$ - $\mathbb{GR}$ : Boosting $\mathbb{V}$ isual $\mathbb{D}$ ialog with Cascaded Spatial-Temporal Multi-Modal $\mathbb{GR}$ aphs Adnen Abdessaied Lei Shi Andreas Bulling 3DH 58 4 0 25 Oct 2023
Enhancing Document Information Analysis with Multi-Task Pre-training: A Robust Approach for Information Extraction in Visually-Rich Documents Tofik Ali Partha Pratim Roy 57 0 0 25 Oct 2023
Video Referring Expression Comprehension via Transformer with Content-conditioned Query Jiang Ji Meng Cao Tengtao Song Long Chen Yi Wang Yuexian Zou 88 6 0 25 Oct 2023
GD-COMET: A Geo-Diverse Commonsense Inference Model Mehar Bhatia Vered Shwartz 76 6 0 23 Oct 2023
The BLA Benchmark: Investigating Basic Language Abilities of Pre-Trained Multimodal Models Xinyi Chen Raquel Fernández Sandro Pezzelle VLM 62 10 0 23 Oct 2023
Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and Beyond Zhecan Wang Long Chen Haoxuan You Keyang Xu Yicheng He Wenhao Li Noal Codella Kai-Wei Chang Shih-Fu Chang 107 3 0 23 Oct 2023
GeoLM: Empowering Language Models for Geospatially Grounded Language Understanding Zekun Li Wenxuan Zhou Yao-Yi Chiang Muhao Chen SyDa 90 31 0 23 Oct 2023
ITEm: Unsupervised Image-Text Embedding Learning for eCommerce Baohao Liao Michael Kozielski Sanjika Hewavitharana Jiangbo Yuan Shahram Khadivi Tomer Lancewicki SSL 25 0 0 22 Oct 2023
Semi-supervised multimodal coreference resolution in image narrations A. Goel Basura Fernando Frank Keller Hakan Bilen 82 4 0 20 Oct 2023
RSAdapter: Adapting Multimodal Models for Remote Sensing Visual Question Answering Yuduo Wang Pedram Ghamisi 61 6 0 19 Oct 2023
InViG: Benchmarking Interactive Visual Grounding with 500K Human-Robot Interactions Hanbo Zhang Jie Xu Yuchen Mo Tao Kong 62 1 0 18 Oct 2023
UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models Yanyang Guo Fangkai Jiao Zhiqi Shen Liqiang Nie Mohan S. Kankanhalli MLLM 87 7 0 17 Oct 2023
HairCLIPv2: Unifying Hair Editing via Proxy Feature Blending Tianyi Wei DongDong Chen Wenbo Zhou Jing Liao Weiming Zhang Gang Hua Neng H. Yu 63 13 0 16 Oct 2023
A Recent Survey of Heterogeneous Transfer Learning Runxue Bao Yiming Sun Yuhe Gao Jindong Wang Qiang Yang Zhi-Hong Mao Ye Ye 86 4 0 12 Oct 2023
DeltaSpace: A Semantic-aligned Feature Space for Flexible Text-guided Image Editing Yueming Lyu Kang Zhao Bo Peng H. Chen Yue Jiang Yingya Zhang Jing Dong Caifeng Shan 76 2 0 12 Oct 2023
Multimodal Graph Learning for Generative Tasks Minji Yoon Jing Yu Koh Bryan Hooi Ruslan Salakhutdinov 65 11 0 11 Oct 2023
InstructDET: Diversifying Referring Object Detection with Generalized Instructions Ronghao Dang Jiangyan Feng Haodong Zhang Chongjian Ge Lin Song ... Chengju Liu Qi Chen Feng Zhu Rui Zhao Yibing Song ObjD 77 11 0 08 Oct 2023
Video-Teller: Enhancing Cross-Modal Generation with Fusion and Decoupling Haogeng Liu Qihang Fan Tingkai Liu Linjie Yang Yunzhe Tao Huaibo Huang Ran He Hongxia Yang VGen 55 12 0 08 Oct 2023
HowToCaption: Prompting LLMs to Transform Video Annotations at Scale Nina Shvetsova Anna Kukleva Xudong Hong Christian Rupprecht Bernt Schiele Hilde Kuehne 105 26 0 07 Oct 2023
GRID: A Platform for General Robot Intelligence Development Sai H. Vemprala Shuhang Chen Abhinav Shukla Dinesh Narayanan Ashish Kapoor 89 10 0 02 Oct 2023
Social Media Fashion Knowledge Extraction as Captioning Yifei Yuan Wenxuan Zhang Yang Deng Wai Lam 51 1 0 28 Sep 2023
ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens Yangyang Guo Haoyu Zhang Yongkang Wong Liqiang Nie Mohan Kankanhalli VLM 69 3 0 28 Sep 2023
Align before Search: Aligning Ads Image to Text for Accurate Cross-Modal Sponsored Search Yuanmin Tang Daling Wang Keke Gai Wenfang Wu Yifei Zhang Gang Xiong Qi Wu 73 4 0 28 Sep 2023
Context-I2W: Mapping Images to Context-dependent Words for Accurate Zero-Shot Composed Image Retrieval Yuanmin Tang Jiahao Yu Keke Gai Jiamin Zhuang Gang Xiong Yue Hu Qi Wu 83 39 0 28 Sep 2023
DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via Multi-Modal Causal Attention Z. Yao Xiaoxia Wu Conglong Li Minjia Zhang Heyang Qi Olatunji Ruwase A. A. Awan Samyam Rajbhandari Yuxiong He 93 11 0 25 Sep 2023
VidChapters-7M: Video Chapters at Scale Antoine Yang Arsha Nagrani Ivan Laptev Josef Sivic Cordelia Schmid VGen 98 28 0 25 Sep 2023
Survey of Social Bias in Vision-Language Models Nayeon Lee Yejin Bang Holy Lovenia Samuel Cahyawijaya Wenliang Dai Pascale Fung VLM 126 19 0 24 Sep 2023
GraphAdapter: Tuning Vision-Language Models With Dual Knowledge Graph Xin Li Dongze Lian Zhihe Lu Jiawang Bai Zhibo Chen Xinchao Wang VLM 108 66 0 24 Sep 2023
A Survey on Image-text Multimodal Models Ruifeng Guo Jingxuan Wei Linzhuang Sun Khai-Nguyen Nguyen Guiyong Chang Dawei Liu Sibo Zhang Zhengbing Yao Mingjun Xu Liping Bu VLM 128 7 0 23 Sep 2023
Multi-modal Domain Adaptation for REG via Relation Transfer Yifan Ding Liqiang Wang Boqing Gong 63 0 0 23 Sep 2023
DimCL: Dimensional Contrastive Learning For Improving Self-Supervised Learning Thanh Nguyen T. Pham Chaoning Zhang Tung M. Luu Thang Vu Chang D. Yoo 102 10 0 21 Sep 2023
StructChart: Perception, Structuring, Reasoning for Visual Chart Understanding Renqiu Xia Bo Zhang Hao Peng Hancheng Ye Xiangchao Yan Peng Ye Botian Shi Yu Qiao Junchi Yan 116 0 0 20 Sep 2023
R2GenGPT: Radiology Report Generation with Frozen LLMs Zhanyu Wang Lingqiao Liu Lei Wang Luping Zhou MedIm LM&MA VLM 93 75 0 18 Sep 2023
Code quality assessment using transformers Mosleh Mahamud Isak Samsten ViT 29 0 0 17 Sep 2023
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval Nina Shvetsova Anna Kukleva Bernt Schiele Hilde Kuehne DiffM 77 4 0 16 Sep 2023
InstructDiffusion: A Generalist Modeling Interface for Vision Tasks Zigang Geng Binxin Yang Tiankai Hang Chen Li Shuyang Gu ... Jianmin Bao Zheng Zhang Han Hu DongDong Chen Baining Guo DiffM VLM 118 107 0 07 Sep 2023
Interpretable Visual Question Answering via Reasoning Supervision Maria Parelli Dimitrios Mallis Markos Diomataris Vassilis Pitsikalis LRM 94 3 0 07 Sep 2023
Parameter and Computation Efficient Transfer Learning for Vision-Language Pre-trained Models Qiong Wu Wei Yu Yiyi Zhou Shubin Huang Xiaoshuai Sun Rongrong Ji VLM 86 7 0 04 Sep 2023
Unified Pre-training with Pseudo Texts for Text-To-Image Person Re-identification Zhiyin Shao Xinyu Zhang Changxing Ding Jian Wang Jingdong Wang 95 19 0 04 Sep 2023