v1v2 (latest)

CoCa: Contrastive Captioners are Image-Text Foundation Models

4 May 2022

Mojtaba Seyedhosseini

Papers citing "CoCa: Contrastive Captioners are Image-Text Foundation Models"

50 / 935 papers shown

Title
Object-Aware Query Perturbation for Cross-Modal Image-Text Retrieval Naoya Sogi Takashi Shibata Makoto Terao VLM 87 2 0 17 Jul 2024
Open Vocabulary Multi-Label Video Classification Rohit Gupta Mamshad Nayeem Rizve Jayakrishnan Unnikrishnan Ashish Tawari Son Tran Mubarak Shah Benjamin Z. Yao Trishul Chilimbi VLM 95 1 0 12 Jul 2024
NODE-Adapter: Neural Ordinary Differential Equations for Better Vision-Language Reasoning Yi Zhang Chun-Wun Cheng Ke Yu Zhihai He Carola-Bibiane Schonlieb Angelica I Aviles-Rivero VLM 85 2 0 11 Jul 2024
Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement Zijie Yue Miaojing Shi Hanli Wang Shuai Ding Qijun Chen Shanlin Yang 107 0 0 11 Jul 2024
TIP: Tabular-Image Pre-training for Multimodal Classification with Incomplete Data Siyi Du Shaoming Zheng Yinsong Wang Wenjia Bai D. O’Regan Chen Qin LMTD 97 5 0 10 Jul 2024
Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation Seonghoon Yu Paul Hongsuck Seo Jeany Son DiffM 145 6 0 10 Jul 2024
Graph-Based Captioning: Enhancing Visual Descriptions by Interconnecting Region Captions Yu-Guan Hsieh Cheng-Yu Hsieh Shih-Ying Yeh Louis Béthune Hadi Pour Ansari Pavan Kumar Anasosalu Vasu Chun-Liang Li Ranjay Krishna Oncel Tuzel Marco Cuturi 150 5 0 09 Jul 2024
Leveraging Task-Specific Knowledge from LLM for Semi-Supervised 3D Medical Image Segmentation Suruchi Kumari Aryan Das Swalpa Kumar Roy Indu Joshi Pravendra Singh 98 3 0 06 Jul 2024
Precision at Scale: Domain-Specific Datasets On-Demand Jesús M. Rodríguez-de-Vera Imanol G. Estepa Ignacio Sarasúa Bhalaji Nagarajan Petia Radeva 87 2 0 03 Jul 2024
FastCLIP: A Suite of Optimization Techniques to Accelerate CLIP Training with Limited Resources Xiyuan Wei Fanjiang Ye Ori Yonay Xingyu Chen Baixi Sun Dingwen Tao Tianbao Yang VLM CLIP 127 2 0 01 Jul 2024
Semantic Compositions Enhance Vision-Language Contrastive Learning Maxwell Mbabilla Aladago Lorenzo Torresani Soroush Vosoughi CoGe VLM CLIP 83 0 0 01 Jul 2024
PathAlign: A vision-language model for whole slide images in histopathology Faruk Ahmed Andrew Sellergren Lin Yang Shawn Xu Boris Babenko ... S. Shetty Daniel Golden Yun-Hui Liu David F. Steiner Ellery Wulczyn LM&MA VLM 103 18 0 27 Jun 2024
Foundational Models for Pathology and Endoscopy Images: Application for Gastric Inflammation H. Kerdegari Kyle Higgins Dennis Veselkov I. Laponogov I. Poļaka ... Junior Andrea Pescino M. Leja M. Dinis-Ribeiro T. F. Kanonnikoff Kirill Veselkov 106 5 0 26 Jun 2024
Diffusion Model-Based Video Editing: A Survey Wenhao Sun Rong-Cheng Tu Jingyi Liao Dacheng Tao VGen 118 25 0 26 Jun 2024
Visualization Literacy of Multimodal Large Language Models: A Comparative Study Zhimin Li Haichao Miao Valerio Pascucci Shusen Liu 100 6 0 24 Jun 2024
HEST-1k: A Dataset for Spatial Transcriptomics and Histology Image Analysis Guillaume Jaume Paul Doucet Andrew H. Song Ming Y. Lu Cristina Almagro-Pérez ... Anurag J. Vaidya Richard J. Chen Drew F. K. Williamson Ahrong Kim Faisal Mahmood 116 34 0 23 Jun 2024
A Simple Framework for Open-Vocabulary Zero-Shot Segmentation Thomas Stegmüller Tim Lebailly Nikola Dukic Behzad Bozorgtabar Tinne Tuytelaars Jean-Philippe Thiran VLM 105 1 0 23 Jun 2024
Multi-modal Transfer Learning between Biological Foundation Models Juan Jose Garau-Luis Patrick Bordes Liam Gonzalez Masa Roller Bernardo P. de Almeida ... Stefan Laurent Jan Grzegorzewski Maren Lang Thomas Pierrot Guillaume Richard AI4CE 95 5 0 20 Jun 2024
StableSemantics: A Synthetic Language-Vision Dataset of Semantic Representations in Naturalistic Images Rushikesh Zawar Shaurya Dewan Andrew F. Luo Margaret M. Henderson Michael J. Tarr Leila Wehbe VGen CoGe 76 1 0 19 Jun 2024
Towards a multimodal framework for remote sensing image change retrieval and captioning Roger Ferrod Luigi Di Caro Dino Ienco 52 2 0 19 Jun 2024
GSR-BENCH: A Benchmark for Grounded Spatial Reasoning Evaluation via Multimodal LLMs Navid Rajabi Jana Kosecka 71 14 0 19 Jun 2024
SeTAR: Out-of-Distribution Detection with Selective Low-Rank Approximation Yixia Li Boya Xiong Guanhua Chen Yun Chen OODD 99 4 0 18 Jun 2024
Improving Multi-Agent Debate with Sparse Communication Topology Yunxuan Li Yibing Du Jiageng Zhang Le Hou Peter Grabowski Yeqing Li Eugene Ie LLMAG 98 25 0 17 Jun 2024
Duoduo CLIP: Efficient 3D Understanding with Multi-View Images Han-Hung Lee Yiming Zhang Angel X. Chang 3DPC 160 4 0 17 Jun 2024
Light Up the Shadows: Enhance Long-Tailed Entity Grounding with Concept-Guided Vision-Language Models Yikai Zhang Qianyu He Xintao Wang Siyu Yuan Jiaqing Liang Yanghua Xiao VLM 69 0 0 16 Jun 2024
Explore the Limits of Omni-modal Pretraining at Scale Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue VLM LRM 82 1 0 13 Jun 2024
Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms Miaosen Zhang Yixuan Wei Zhen Xing Yifei Ma Zuxuan Wu ... Zheng Zhang Qi Dai Chong Luo Xin Geng Baining Guo VLM 84 1 0 13 Jun 2024
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus Matthieu Futeral A. Zebaze Pedro Ortiz Suarez Julien Abadji Rémi Lacroix Cordelia Schmid Rachel Bawden Benoît Sagot 167 3 0 13 Jun 2024
Enhancing Domain Adaptation through Prompt Gradient Alignment Hoang Phan Lam C. Tran Quyen Tran Trung Le 180 1 0 13 Jun 2024
ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs Irene Huang Wei Lin M. Jehanzeb Mirza Jacob A. Hansen Sivan Doveh ... Trevor Darrel Chuang Gan Aude Oliva Rogerio Feris Leonid Karlinsky CoGe LRM 88 9 0 12 Jun 2024
Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning Chenyu Yang Xizhou Zhu Jinguo Zhu Weijie Su Junjie Wang ... Lewei Lu Bin Li Jie Zhou Yu Qiao Jifeng Dai VLM CLIP 87 6 0 11 Jun 2024
Benchmarking Vision-Language Contrastive Methods for Medical Representation Learning Shuvendu Roy Yasaman Parhizkar Franklin Ogidi Vahid Reza Khazaie Michael Colacci Ali Etemad Elham Dolatabadi Arash Afkanpour VLM 128 1 0 11 Jun 2024
Let Go of Your Labels with Unsupervised Transfer Artyom Gadetsky Yulun Jiang Maria Brbić VLM 98 8 0 11 Jun 2024
Bridging Language Gaps in Audio-Text Retrieval Zhiyong Yan Heinrich Dinkel Yongqing Wang Jizhong Liu Junbo Zhang Yujun Wang Bin Wang VLM 80 5 0 11 Jun 2024
BrainChat: Decoding Semantic Information from fMRI using Vision-language Pretrained Models Wanaiu Huang 61 2 0 10 Jun 2024
Gentle-CLIP: Exploring Aligned Semantic In Low-Quality Multimodal Data With Soft Alignment Zijia Song Z. Zang Yelin Wang Guozheng Yang Jiangbin Zheng Kaicheng Yu Wanyu Chen Stan Z. Li 75 1 0 09 Jun 2024
Understanding Information Storage and Transfer in Multi-modal Large Language Models Samyadeep Basu Martin Grayson C. Morrison Besmira Nushi Soheil Feizi Daniela Massiceti 93 12 0 06 Jun 2024
Low-Rank Similarity Mining for Multimodal Dataset Distillation Yue Xu Zhilin Lin Yusong Qiu Cewu Lu Yong-Lu Li DD 102 6 0 06 Jun 2024
Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning Alex Jinpeng Wang Linjie Li Yiqi Lin Min Li Lijuan Wang Mike Zheng Shou VLM 92 5 0 04 Jun 2024
CODE: Contrasting Self-generated Description to Combat Hallucination in Large Multi-modal Models Junho Kim Hyunjun Kim Yeonju Kim Yong Man Ro MLLM 117 16 0 04 Jun 2024
Few-Shot Classification of Interactive Activities of Daily Living (InteractADL) Zane Durante Robathan Harries Edward Vendrow Zelun Luo Yuta Kyuragi Kazuki Kozuka Fei-Fei Li Ehsan Adeli VLM 80 1 0 03 Jun 2024
ED-SAM: An Efficient Diffusion Sampling Approach to Domain Generalization in Vision-Language Foundation Models Thanh-Dat Truong Xin Li Bhiksha Raj Jackson Cothren Khoa Luu DiffM VLM 98 1 0 03 Jun 2024
UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment Hantao Zhou Longxiang Tang Rui Yang Guanyi Qin Yan Zhang Runze Hu Xiu Li 86 6 0 03 Jun 2024
Quantum Visual Feature Encoding Revisited Xuan-Bac Nguyen Hoang-Quan Nguyen Hugh Churchill Samee U. Khan Khoa Luu 64 9 0 30 May 2024
QClusformer: A Quantum Transformer-based Framework for Unsupervised Visual Clustering Xuan-Bac Nguyen Hoang-Quan Nguyen Samuel Yen-Chi Chen Samee U. Khan Hugh Churchill Khoa Luu 70 11 0 30 May 2024
Multi-Modal Generative Embedding Model Feipeng Ma Hongwei Xue Guangting Wang Yizhou Zhou Fengyun Rao Shilin Yan Yueyi Zhang Siying Wu Mike Zheng Shou Xiaoyan Sun VLM 64 4 0 29 May 2024
CaLa: Complementary Association Learning for Augmenting Composed Image Retrieval Xintong Jiang Yaxiong Wang Mengjian Li Yujiao Wu Bingwen Hu Xueming Qian CoGe 82 7 0 29 May 2024
Zipper: A Multi-Tower Decoder Architecture for Fusing Modalities Vicky Zayats Peter Chen Melissa Ferrari Dirk Padfield AI4CE 77 1 0 29 May 2024
Wavelet-Based Image Tokenizer for Vision Transformers Zhenhai Zhu Radu Soricut ViT 102 5 0 28 May 2024
Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment Xin Xiao Bohong Wu Jiacong Wang Chunyuan Li Xun Zhou Haoyuan Guo VLM 73 9 0 28 May 2024