Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining?

Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?

24 August 2023

Liang Ding

Li Shen

Papers citing "Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language Pretraining?"

19 / 19 papers shown

Title
Enhancing Vision-Language Compositional Understanding with Multimodal Synthetic Data Haoxin Li Boyang Li CoGe 90 0 0 03 Mar 2025
Can ChatGPT Understand Too? A Comparative Study on ChatGPT and Fine-tuned BERT Qihuang Zhong Liang Ding Juhua Liu Bo Du Dacheng Tao AI4MH 86 241 0 19 Feb 2023
BLOOM: A 176B-Parameter Open-Access Multilingual Language Model BigScience Workshop : Teven Le Scao Angela Fan Christopher Akiki ... Zhongli Xie Zifan Ye M. Bras Younes Belkada Thomas Wolf VLM 266 2,348 0 09 Nov 2022
When and why vision-language models behave like bags-of-words, and what to do about it? Mert Yuksekgonul Federico Bianchi Pratyusha Kalluri Dan Jurafsky James Zou VLM CoGe 51 378 0 04 Oct 2022
PaLI: A Jointly-Scaled Multilingual Language-Image Model Xi Chen Tianlin Li Soravit Changpinyo A. Piergiovanni Piotr Padlewski ... Andreas Steiner A. Angelova Xiaohua Zhai N. Houlsby Radu Soricut MLLM VLM 53 694 0 14 Sep 2022
VL-CheckList: Evaluating Pre-trained Vision-Language Models with Objects, Attributes and Relations Tiancheng Zhao Tianqi Zhang Mingwei Zhu Haozhan Shen Kyusong Lee Xiaopeng Lu Jianwei Yin VLM CoGe MLLM 78 93 0 01 Jul 2022
E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language Understanding and Generation Qihuang Zhong Liang Ding Juhua Liu Bo Du Dacheng Tao 62 27 0 30 May 2022
Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross CoGe 70 413 0 07 Apr 2022
Things not Written in Text: Exploring Spatial Commonsense from Visual Signals Xiao Liu Da Yin Yansong Feng Dongyan Zhao LRM 42 45 0 15 Mar 2022
FLAVA: A Foundational Language And Vision Alignment Model Amanpreet Singh Ronghang Hu Vedanuj Goswami Guillaume Couairon Wojciech Galuba Marcus Rohrbach Douwe Kiela CLIP VLM 62 695 0 08 Dec 2021
Does Vision-and-Language Pretraining Improve Lexical Grounding? Tian Yun Chen Sun Ellie Pavlick VLM CoGe 76 32 0 21 Sep 2021
Probing Image-Language Transformers for Verb Understanding Lisa Anne Hendricks Aida Nematzadeh 51 116 0 16 Jun 2021
Out of Order: How Important Is The Sequential Order of Words in a Sentence in Natural Language Understanding Tasks? Thang M. Pham Trung Bui Long Mai Anh Totti Nguyen 224 124 0 30 Dec 2020
Understanding and Improving Lexical Choice in Non-Autoregressive Translation Liang Ding Longyue Wang Xuebo Liu Derek F. Wong Dacheng Tao Zhaopeng Tu 112 77 0 29 Dec 2020
Context-Aware Cross-Attention for Non-Autoregressive Translation Liang Ding Longyue Wang Di Wu Dacheng Tao Zhaopeng Tu 24 40 0 02 Nov 2020
Self-Attention with Cross-Lingual Position Representation Liang Ding Longyue Wang Dacheng Tao MILM 119 37 0 28 Apr 2020
VisualBERT: A Simple and Performant Baseline for Vision and Language Liunian Harold Li Mark Yatskar Da Yin Cho-Jui Hsieh Kai-Wei Chang VLM 100 1,939 0 09 Aug 2019
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks Jiasen Lu Dhruv Batra Devi Parikh Stefan Lee SSL VLM 188 3,659 0 06 Aug 2019
What you can cram into a single vector: Probing sentence embeddings for linguistic properties Alexis Conneau Germán Kruszewski Guillaume Lample Loïc Barrault Marco Baroni 267 888 0 03 May 2018