ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

5 February 2021

Papers citing "ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision"

50 / 326 papers shown

Title
Decoupled Multimodal Prototypes for Visual Recognition with Missing Modalities Jueqing Lu Yuanyuan Qi Xiaohao Yang Shujie Zhou Lan Du 34 0 0 13 May 2025
PREMISE: Matching-based Prediction for Accurate Review Recommendation Wei Han Hui Chen Soujanya Poria 49 0 0 02 May 2025
MicarVLMoE: A Modern Gated Cross-Aligned Vision-Language Mixture of Experts Model for Medical Image Captioning and Report Generation Amaan Izhar Nurul Japar Norisma Idris Ting Dang MoE 73 0 0 29 Apr 2025
A Survey on Parameter-Efficient Fine-Tuning for Foundation Models in Federated Learning Jieming Bian Yuanzhe Peng Lei Wang Yin Huang Jie Xu FedML 65 0 0 29 Apr 2025
SAMBLE: Shape-Specific Point Cloud Sampling for an Optimal Trade-Off Between Local Detail and Global Uniformity Chengzhi Wu Yuxin Wan Hao Fu Julius Pfrommer Zeyun Zhong Junwei Zheng Jiaming Zhang Jürgen Beyerer 3DPC 54 0 0 28 Apr 2025
Zero-Shot, But at What Cost? Unveiling the Hidden Overhead of MILS's LLM-CLIP Framework for Image Captioning Yassir Benhammou Alessandro Tiberio Gabriel Trautmann Suman Kalyan MLLM VLM 46 0 0 21 Apr 2025
KGMEL: Knowledge Graph-Enhanced Multimodal Entity Linking Juyeon Kim Geon Lee Taeuk Kim Kijung Shin 29 0 0 21 Apr 2025
VGAT: A Cancer Survival Analysis Framework Transitioning from Generative Visual Question Answering to Genomic Reconstruction Zizhi Chen Minghao Han Xukun Zhang Shuwei Ma Tao Liu Xing Wei Li Zhang 49 0 0 25 Mar 2025
NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval Zengrong Lin Zheng Wang Tianwen Qian Pan Mu Sixian Chan Cong Bai 55 0 0 13 Mar 2025
Visual Adaptive Prompting for Compositional Zero-Shot Learning Kyle Stein A. Mahyari Guillermo A. Francia Eman El-Sheikh VLM CoGe 143 1 0 27 Feb 2025
Multi-Faceted Multimodal Monosemanticity Hanqi Yan Xiangxiang Cui Lu Yin Paul Pu Liang Yulan He Yifei Wang 44 0 0 16 Feb 2025
Composite Sketch+Text Queries for Retrieving Objects with Elusive Names and Complex Interactions Prajwal Gatti Kshitij Parikh Dhriti Prasanna Paul Manish Gupta Anand Mishra 118 2 0 12 Feb 2025
Vision-Language Models for Edge Networks: A Comprehensive Survey Ahmed Sharshar Latif U. Khan Waseem Ullah Mohsen Guizani VLM 70 3 0 11 Feb 2025
Multi-Modality Transformer for E-Commerce: Inferring User Purchase Intention to Bridge the Query-Product Gap Srivatsa Mallapragada Ying Xie Varsha Rani Chawan Zeyad Hailat Yuanbo Wang 43 0 0 28 Jan 2025
SST-EM: Advanced Metrics for Evaluating Semantic, Spatial and Temporal Aspects in Video Editing Varun Biyyala Bharat Chanderprakash Kathuria Jialu Li Youshan Zhang 52 0 0 13 Jan 2025
Multimodal semantic retrieval for product search Dong Liu Esther Lopez Ramos 43 0 0 13 Jan 2025
Multi-task Visual Grounding with Coarse-to-Fine Consistency Constraints Ming Dai Jian Li Jiedong Zhuang Xian Zhang Wankou Yang ObjD 44 1 0 12 Jan 2025
Is Your Image a Good Storyteller? Xiujie Song Xiaoyi Pang Haifeng Tang Mengyue Wu Kenny Q. Zhu 43 0 0 29 Dec 2024
Where am I? Cross-View Geo-localization with Natural Language Descriptions Junyan Ye Honglin Lin Leyan Ou Dairong Chen Zihao Wang Zeang Sheng Weijia Li Weijia Li 76 0 0 22 Dec 2024
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization Yue Zhang Liqiang Jing Vibhav Gogate 116 2 0 19 Dec 2024
Beyond Accuracy: On the Effects of Fine-tuning Towards Vision-Language Model's Prediction Rationality Qitong Wang Tang Li Kien X. Nguyen Xi Peng 87 0 0 17 Dec 2024
Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios Shantanu Jaiswal Debaditya Roy Basura Fernando Cheston Tan ReLM LRM 79 2 0 20 Nov 2024
ViTOC: Vision Transformer and Object-aware Captioner Feiyang Huang 34 0 0 09 Nov 2024
Multiple Information Prompt Learning for Cloth-Changing Person Re-Identification Shengxun Wei Zan Gao Yibo Zhao Weili Guan Weili Guan Shengyong Chen 46 2 0 01 Nov 2024
Driving by the Rules: A Benchmark for Integrating Traffic Sign Regulations into Vectorized HD Map Xinyuan Chang Maixuan Xue Xinran Liu Zheng Pan Xing Wei 62 1 0 31 Oct 2024
CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training Zhiyuan Ma Jianjun Li Guohui Li Kaiyan Huang VLM 56 9 0 16 Oct 2024
ATLAS: Adapter-Based Multi-Modal Continual Learning with a Two-Stage Learning Strategy Hong Li Zhiquan Tan Xingyu Li Weiran Huang CLL MoMe 43 1 0 14 Oct 2024
Deep Correlated Prompting for Visual Recognition with Missing Modalities Lianyu Hu Tongkai Shi Wei Feng Fanhua Shang Liang Wan VLM 31 1 0 09 Oct 2024
Recent Advances of Multimodal Continual Learning: A Comprehensive Survey Dianzhi Yu Xinni Zhang Yankai Chen Aiwei Liu Yifei Zhang Philip S. Yu Irwin King VLM CLL 44 9 0 07 Oct 2024
VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models Harshit Tolga Tasdizen CoGe VLM 28 1 0 06 Oct 2024
Generalizable Prompt Tuning for Vision-Language Models Qian Zhang VLM VPVLM 52 0 0 04 Oct 2024
Advancing Medical Radiograph Representation Learning: A Hybrid Pre-training Paradigm with Multilevel Semantic Granularity Hanqi Jiang Xixuan Hao Yuzhou Huang Chong Ma Jiaxun Zhang Yi Pan Ruimao Zhang MedIm 37 0 0 01 Oct 2024
MIO: A Foundation Model on Multimodal Tokens Zekun Wang King Zhu Chunpu Xu Wangchunshu Zhou Jiaheng Liu ... Yuanxing Zhang Ge Zhang Ke Xu Jie Fu Wenhao Huang MLLM AuLLM 60 11 0 26 Sep 2024
The Roles of Generative Artificial Intelligence in Internet of Electric Vehicles Hanwen Zhang Dusit Niyato Wei Zhang Changyuan Zhao Hongyang Du Abbas Jamalipour Sumei Sun Yiyang Pei AI4CE 44 2 0 24 Sep 2024
Embodiment-Agnostic Action Planning via Object-Part Scene Flow Weiliang Tang Jia-Hui Pan Wei Zhan Jianshu Zhou Huaxiu Yao Yun-Hui Liu Masayoshi Tomizuka Mingyu Ding Chi-Wing Fu 53 0 0 16 Sep 2024
MaskMol: Knowledge-guided Molecular Image Pre-Training Framework for Activity Cliffs Zhixiang Cheng Hongxin Xiang Pengsen Ma Li Zeng Xin Jin ... Yang Deng Bosheng Song Xinxin Feng Changhui Deng Xiangxiang Zeng 28 0 0 02 Sep 2024
End-to-end Semantic-centric Video-based Multimodal Affective Computing Ronghao Lin Ying Zeng Sijie Mai Haifeng Hu VGen 45 0 0 14 Aug 2024
Images Speak Louder than Words: Understanding and Mitigating Bias in Vision-Language Model from a Causal Mediation Perspective Zhaotian Weng Zijun Gao Jerone Andrews Jieyu Zhao 33 0 0 03 Jul 2024
EVF-SAM: Early Vision-Language Fusion for Text-Prompted Segment Anything Model Yuxuan Zhang Tianheng Cheng Lianghui Zhu Lei Liu Heng Liu Longjin Ran Xiaoxin Chen Xiaoxin Chen Wenyu Liu Xinggang Wang VLM 61 25 0 28 Jun 2024
ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback Ju-Seung Byun Jiyun Chun Jihyung Kil Andrew Perrault ReLM LRM 39 1 0 25 Jun 2024
MU-Bench: A Multitask Multimodal Benchmark for Machine Unlearning Jiali Cheng Hadi Amiri BDL 43 3 0 21 Jun 2024
Benchmarking Vision-Language Contrastive Methods for Medical Representation Learning Shuvendu Roy Yasaman Parhizkar Franklin Ogidi Vahid Reza Khazaie Michael Colacci Ali Etemad Elham Dolatabadi Arash Afkanpour VLM 52 1 0 11 Jun 2024
One Perturbation is Enough: On Generating Universal Adversarial Perturbations against Vision-Language Pre-training Models Hao Fang Jiawei Kong Wenbo Yu Bin Chen Jiawei Li Hao Wu Ke Xu Ke Xu AAML VLM 40 13 0 08 Jun 2024
Progressive Confident Masking Attention Network for Audio-Visual Segmentation Yuxuan Wang Feng Dong Jinchao Zhu Shuyue Zhu VOS 56 0 0 04 Jun 2024
Enhancing Large Vision Language Models with Self-Training on Image Comprehension Yihe Deng Pan Lu Fan Yin Ziniu Hu Sheng Shen James Zou Kai-Wei Chang Wei Wang SyDa VLM LRM 44 36 0 30 May 2024
Multi-Modal Generative Embedding Model Feipeng Ma Hongwei Xue Guangting Wang Yizhou Zhou Fengyun Rao Shilin Yan Yueyi Zhang Siying Wu Mike Zheng Shou Xiaoyan Sun VLM 39 3 0 29 May 2024
Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval Rui Yang Shuang Wang Yi Han Yuanheng Li Dong Zhao Dou Quan Yanhe Guo Licheng Jiao 65 3 0 29 May 2024
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification Laura Fieback Jakob Spiegelberg Hanno Gottschalk MLLM 65 5 0 29 May 2024
Accelerating Transformers with Spectrum-Preserving Token Merging Hoai-Chau Tran D. M. Nguyen Duy M. Nguyen Trung Thanh Nguyen Ngan Le Pengtao Xie Daniel Sonntag James Y. Zou Binh T. Nguyen Mathias Niepert 44 8 0 25 May 2024
A Survey on Vision-Language-Action Models for Embodied AI Yueen Ma Zixing Song Yuzheng Zhuang Jianye Hao Irwin King LM&Ro 82 43 0 23 May 2024