ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

6 August 2019

Devi Parikh

Papers citing "ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks"

50 / 2,118 papers shown

Title
Improving Generalization in Visual Reasoning via Self-Ensemble Tien-Huy Nguyen Quang-Khai Tran Anh-Tuan Quang-Hoang VLM LRM 128 6 0 28 Oct 2024
R-LLaVA: Improving Med-VQA Understanding through Visual Region of Interest Xupeng Chen Zhixin Lai Kangrui Ruan Shichu Chen Jiaxiang Liu Zuozhu Liu 144 3 0 27 Oct 2024
Deep Insights into Cognitive Decline: A Survey of Leveraging Non-Intrusive Modalities with Deep Learning Techniques David Ortiz-Perez Manuel Benavent-Lledo José García Rodríguez David Tomás M. Flores Vizcaya-Moreno 69 2 0 24 Oct 2024
ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning Zhiwei Hao Jianyuan Guo Li Shen Yong Luo Han Hu Yonggang Wen VLM 99 0 0 23 Oct 2024
ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering Nghia Hieu Nguyen Tho Thanh Quan Ngan Luu-Thuy Nguyen 75 0 0 18 Oct 2024
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment Chenhang Cui An Zhang Yiyang Zhou Zhaorun Chen Gelei Deng Huaxiu Yao Tat-Seng Chua 214 8 0 18 Oct 2024
VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks Shailaja Keyur Sampat Mutsumi Nakamura Shankar Kailas Kartik Aggarwal Mandy Zhou Yezhou Yang Chitta Baral MLLM CoGe ReLM VLM LRM 83 0 0 17 Oct 2024
CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training Zhiyuan Ma Jianjun Li Guohui Li Kaiyan Huang VLM 120 9 0 16 Oct 2024
OmnixR: Evaluating Omni-modality Language Models on Reasoning across Modalities Lawrence Yunliang Chen Hexiang Hu Ruotong Wang Yiran Chen Zifeng Wang ... Pranav Shyam Tianyi Zhou Heng-Chiao Huang Ming-Hsuan Yang Boqing Gong 41 3 0 16 Oct 2024
MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling Jian Yang Dacheng Yin Yizhou Zhou Fengyun Rao Wei-dong Zhai Yang Cao Zheng-jun Zha DiffM 84 6 0 14 Oct 2024
X-Fi: A Modality-Invariant Foundation Model for Multimodal Human Sensing Xinyan Chen Jianfei Yang 136 3 0 14 Oct 2024
Leveraging Customer Feedback for Multi-modal Insight Extraction Sandeep Sricharan Mukku Abinesh Kanagarajan Pushpendu Ghosh Chetan Aggarwal 29 0 0 13 Oct 2024
nach0-pc: Multi-task Language Model with Molecular Point Cloud Encoder Maksim Kuznetsov Airat Valiev Alex Aliper Daniil Polykovskiy E. Tutubalina Rim Shayakhmetov Z. Miftahutdinov 66 0 0 11 Oct 2024
A Social Context-aware Graph-based Multimodal Attentive Learning Framework for Disaster Content Classification during Emergencies Shahid Shafi Dar Mohammad Zia Ur Rehman Karan Bais Mohammed Abdul Haseeb Nagendra Kumara 79 13 0 11 Oct 2024
Exploring Foundation Models in Remote Sensing Image Change Detection: A Comprehensive Survey Zihan Yu Tianxiao Li Yuxin Zhu Rongze Pan 83 1 0 10 Oct 2024
Multimodal Clickbait Detection by De-confounding Biases Using Causal Representation Inference Jianxing Yu Shiqi Wang Han Yin Zhenlong Sun Ruobing Xie Bo Zhang Yanghui Rao CML 67 0 0 10 Oct 2024
FLIER: Few-shot Language Image Models Embedded with Latent Representations Zhinuo Zhou Peng Zhou Xiaoyong Pan VLM 40 0 0 10 Oct 2024
CoPESD: A Multi-Level Surgical Motion Dataset for Training Large Vision-Language Models to Co-Pilot Endoscopic Submucosal Dissection Guankun Wang Han Xiao Huxin Gao Renrui Zhang Long Bai Xiaoxiao Yang Zhen Li Hongsheng Li Hongliang Ren 92 7 0 10 Oct 2024
Structured Spatial Reasoning with Open Vocabulary Object Detectors Negar Nejatishahidin Madhukar Reddy Vongala Jana Kosecka 90 3 0 09 Oct 2024
Addax: Utilizing Zeroth-Order Gradients to Improve Memory Efficiency and Performance of SGD for Fine-Tuning Language Models Zeman Li Xinwei Zhang Peilin Zhong Yuan Deng Meisam Razaviyayn Vahab Mirrokni 116 5 0 09 Oct 2024
DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models Sungnyun Kim Haofu Liao Srikar Appalaraju Peng Tang Zhuowen Tu R. Satzoda R. Manmatha Vijay Mahadevan Stefano Soatto 106 0 0 04 Oct 2024
Multi-modal clothing recommendation model based on large model and VAE enhancement Bingjie Huang Qingyi Lu Shuaishuai Huang Xue-she Wang Haowei Yang 90 4 0 03 Oct 2024
Advancing Medical Radiograph Representation Learning: A Hybrid Pre-training Paradigm with Multilevel Semantic Granularity Hanqi Jiang Xixuan Hao Yuzhou Huang Chong Ma Jiaxun Zhang Yi Pan Ruimao Zhang MedIm 184 0 0 01 Oct 2024
Towards Open-Vocabulary Semantic Segmentation Without Semantic Labels Heeseong Shin Chaehyun Kim Sunghwan Hong Seokju Cho Anurag Arnab Paul Hongsuck Seo Seungryong Kim VLM 84 1 0 30 Sep 2024
DENEB: A Hallucination-Robust Automatic Evaluation Metric for Image Captioning Kazuki Matsuda Yuiga Wada Komei Sugiura 65 1 0 28 Sep 2024
Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving Zhenghao Peng Wenjie Luo Yiren Lu Tianyi Shen Cole Gulino Ari Seff Justin Fu 62 9 0 26 Sep 2024
A Multimodal Single-Branch Embedding Network for Recommendation in Cold-Start and Missing Modality Scenarios Christian Ganhor Marta Moscati Anna Hausberger Shah Nawaz Markus Schedl 65 2 0 26 Sep 2024
MIO: A Foundation Model on Multimodal Tokens Zekun Wang King Zhu Chunpu Xu Wangchunshu Zhou Jiaheng Liu ... Yuanxing Zhang Ge Zhang Ke Xu Jie Fu Wenhao Huang MLLM AuLLM 175 12 0 26 Sep 2024
Path-adaptive Spatio-Temporal State Space Model for Event-based Recognition with Arbitrary Duration Jiazhou Zhou Kanghao Chen Lei Zhang Lin Wang 100 0 0 25 Sep 2024
DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation Soojin Jang Jungmin Yun Junehyoung Kwon Eunju Lee Youngbin Kim 104 3 0 24 Sep 2024
Multi-modal Generative AI: Multi-modal LLMs, Diffusions and the Unification X. Wang Yuwei Zhou Bin Huang Hong Chen Wenwu Zhu DiffM 156 9 0 23 Sep 2024
LARE: Latent Augmentation using Regional Embedding with Vision-Language Model Kosuke Sakurai Tatsuya Ishii Ryotaro Shimizu Linxin Song Masayuki Goto VLM 76 0 0 19 Sep 2024
Multi-Cohort Framework with Cohort-Aware Attention and Adversarial Mutual-Information Minimization for Whole Slide Image Classification Sharon Peled Y. Maruvka Moti Freiman 61 1 0 17 Sep 2024
Resolving Inconsistent Semantics in Multi-Dataset Image Segmentation Qilong Zhangli Di Liu Abhishek Aich Dimitris Metaxas S. Schulter 77 0 0 15 Sep 2024
PROSE-FD: A Multimodal PDE Foundation Model for Learning Multiple Operators for Forecasting Fluid Dynamics Yuxuan Liu Jingmin Sun Xinjie He Griffin Pinney Zecheng Zhang Hayden Schaeffer AI4CE 99 9 0 15 Sep 2024
ComAlign: Compositional Alignment in Vision-Language Models Ali Abdollah Amirmohammad Izadi Armin Saghafian Reza Vahidimajd Mohammad Mozafari Amirreza Mirzaei Mohammadmahdi Samiei M. Baghshah CoGe VLM 63 0 0 12 Sep 2024
Recent Trends of Multimodal Affective Computing: A Survey from NLP Perspective Guimin Hu Yi Xin Weimin Lyu Haojian Huang Chang Sun Zehan Zhu Lin Gui Ruichu Cai Erik Cambria Hasti Seifi 105 6 0 11 Sep 2024
What to align in multimodal contrastive learning? Benoit Dufumier J. Castillo-Navarro D. Tuia Jean-Philippe Thiran 158 4 0 11 Sep 2024
MathGLM-Vision: Solving Mathematical Problems with Multi-Modal Large Language Model Zhen Yang Jinhao Chen Zhengxiao Du Wenmeng Yu Weihan Wang Wenyi Hong Zhihuan Jiang Bin Xu Yuxiao Dong Jie Tang VLM LRM 84 11 0 10 Sep 2024
$VidLPRO: A $\underline{Vid}$eo-$\underline{L}$anguage $\underline{P}$re-training Framework for $\underline{Ro}$botic and Laparoscopic Surgery$ VidLPRO: A $\underline{Vid}$ eo- $\underline{L}$ anguage $\underline{P}$ re-training Framework for $\underline{Ro}$ botic and Laparoscopic Surgery Mohammadmahdi Honarmand Muhammad Abdullah Jamal Omid Mohareri 151 2 0 07 Sep 2024
MuAP: Multi-step Adaptive Prompt Learning for Vision-Language Model with Missing Modality Ruiting Dai Yuqiao Tan Lisi Mo Tao He Ke Qin Shuang Liang VLM 79 3 0 07 Sep 2024
Vision-Language Navigation with Continual Learning Zhiyuan Li Yanfeng Lv Ziqin Tu Di Shang Hong Qiao 93 2 0 04 Sep 2024
CV-Probes: Studying the interplay of lexical and world knowledge in visually grounded verb understanding Ivana Beňová Michal Gregor Albert Gatt 74 1 0 02 Sep 2024
HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution Masoomeh Aslahishahri Jordan R. Ubbens Ian Stavness 74 0 0 30 Aug 2024
VLM-KD: Knowledge Distillation from VLM for Long-Tail Visual Recognition Zaiwei Zhang Gregory P. Meyer Zhichao Lu Ashish Shrivastava Avinash Ravichandran Eric M. Wolff VLM 99 3 0 29 Aug 2024
Benchmarking Japanese Speech Recognition on ASR-LLM Setups with Multi-Pass Augmented Generative Error Correction Yuka Ko Sheng Li Chao-Han Huck Yang Tatsuya Kawahara AuLLM 43 4 0 29 Aug 2024
Pixels to Prose: Understanding the art of Image Captioning Hrishikesh Singh Aarti Sharma Millie Pant 3DV VLM 90 1 0 28 Aug 2024
Meta-Learn Unimodal Signals with Weak Supervision for Multimodal Sentiment Analysis Sijie Mai Yu Zhao Ying Zeng Jianhua Yao Haifeng Hu 135 2 0 28 Aug 2024
LowCLIP: Adapting the CLIP Model Architecture for Low-Resource Languages in Multimodal Image Retrieval Task Ali Asgarov Samir Rustamov VLM 38 1 0 25 Aug 2024
Probing the Robustness of Vision-Language Pretrained Models: A Multimodal Adversarial Attack Approach Jiwei Guan Tianyu Ding Longbing Cao Lei Pan Chen Wang Xi Zheng AAML 128 2 0 24 Aug 2024