v1v2 (latest)

CoCa: Contrastive Captioners are Image-Text Foundation Models

4 May 2022

Mojtaba Seyedhosseini

Papers citing "CoCa: Contrastive Captioners are Image-Text Foundation Models"

50 / 935 papers shown

Title
Multimodal Representation Learning Techniques for Comprehensive Facial State Analysis Kaiwen Zheng Xuri Ge Junchen Fu Jun Peng J. Jose CVBM 68 0 0 14 Apr 2025
GFT: Gradient Focal Transformer Boris Kriuk Simranjit Kaur Gill Shoaib Aslam Amir Fakhrutdinov 94 0 0 14 Apr 2025
3D CoCa: Contrastive Learners are 3D Captioners Ting Huang Zhenru Zhang Yansen Wang Hao Tang 94 1 0 13 Apr 2025
Embodied Image Captioning: Self-supervised Learning Agents for Spatially Coherent Image Descriptions Tommaso Galliena Tommaso Apicella Stefano Rosa Pietro Morerio Alessio Del Bue Lorenzo Natale 88 0 0 11 Apr 2025
Kimi-VL Technical Report Kimi Team Angang Du B. Yin Bowei Xing Bowen Qu ... Z. Huang Zhe Chen Zijia Zhao Ziwei Chen Zongyu Lin MLLM VLM MoE 393 32 0 10 Apr 2025
A Survey of Pathology Foundation Model: Progress and Future Directions Conghao Xiong Hao Chen Joseph J. Y. Sung LM&MA AI4CE 173 1 0 05 Apr 2025
VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models Dahun Kim A. Piergiovanni Ganesh Mallya A. Angelova CoGe 126 0 0 04 Apr 2025
Safety Modulation: Enhancing Safety in Reinforcement Learning through Cost-Modulated Rewards Hanping Zhang Yuhong Guo OffRL 116 0 0 03 Apr 2025
Hybrid Global-Local Representation with Augmented Spatial Guidance for Zero-Shot Referring Image Segmentation Ting Liu Siyuan Li 97 0 0 01 Apr 2025
IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval Bangwei Liu Yicheng Bao Shaohui Lin Xuhong Wang Xin Tan Yansen Wang Yuan Xie Chaochao Lu 205 1 0 01 Apr 2025
FortisAVQA and MAVEN: a Benchmark Dataset and Debiasing Framework for Robust Multimodal Reasoning Jie Ma Zhitao Gao Qi Chai Jing Liu Peijie Wang Jing Tao Zhou Su 124 2 0 01 Apr 2025
GECKO: Gigapixel Vision-Concept Contrastive Pretraining in Histopathology S. Kapse Pushpak Pati Srikar Yellapragada Srijan Das Rajarsi R. Gupta Joel H. Saltz Dimitris Samaras Prateek Prasanna VLM 107 1 0 01 Apr 2025
Self-Evolving Visual Concept Library using Vision-Language Critics Atharva Sehgal Patrick Yuan Ziniu Hu Yisong Yue Jennifer J. Sun Swarat Chaudhuri VLM 87 0 0 31 Mar 2025
Order Matters: On Parameter-Efficient Image-to-Video Probing for Recognizing Nearly Symmetric Actions Thinesh Thiyakesan Ponbagavathi Alina Roitberg 62 0 0 31 Mar 2025
A Survey on Remote Sensing Foundation Models: From Vision to Multimodality Ziyue Huang Hongxi Yan Qiqi Zhan Shuai Yang Mingming Zhang Yiming Lei Chenkai Zhang Zeming Liu Qingjie Liu Yansen Wang 147 2 0 28 Mar 2025
Compositional Caching for Training-free Open-vocabulary Attribute Detection Marco Garosi Alessandro Conti Gaowen Liu Elisa Ricci Massimiliano Mancini ObjD VLM 103 0 0 24 Mar 2025
Towards Training-free Anomaly Detection with Vision and Language Foundation Models Jinjin Zhang Guodong Wang Yizhou Jin Di Huang 87 2 0 24 Mar 2025
CoMP: Continual Multimodal Pre-training for Vision Foundation Models Yuxiao Chen L. Meng Wujian Peng Zuxuan Wu Yu-Gang Jiang VLM 211 1 0 24 Mar 2025
good4cir: Generating Detailed Synthetic Captions for Composed Image Retrieval Pranavi Kolouju Eric Xing Robert Pless Nathan Jacobs Abby Stylianou 3DV 82 0 0 22 Mar 2025
ModalTune: Fine-Tuning Slide-Level Foundation Models with Multi-Modal Information for Multi-task Learning in Digital Pathology Vishwesh Ramanathan Tony Xu Pushpak Pati Faruk Ahmed Maged Goubran Anne L. Martel 80 0 0 21 Mar 2025
Seeing What Matters: Empowering CLIP with Patch Generation-to-Selection Gensheng Pei Tao Chen Yujia Wang Xinhao Cai Xiangbo Shu Tianfei Zhou Yazhou Yao VLM 95 1 0 21 Mar 2025
Derm1M: A Million-scale Vision-Language Dataset Aligned with Clinical Ontology Knowledge for Dermatology Siyuan Yan Ming Hu Yiwen Jiang Xiaochen Li Hao Fei P. Tschandl Harald Kittler Zongyuan Ge VLM 140 2 0 19 Mar 2025
Optimized 3D Gaussian Splatting using Coarse-to-Fine Image Frequency Modulation Umar Farooq Jean-Yves Guillemaut Adrian Hilton M. Volino 3DGS 115 0 0 18 Mar 2025
Squeeze Out Tokens from Sample for Finer-Grained Data Governance Weixiong Lin Chen Ju Haicheng Wang Shengchao Hu Shuai Xiao ... Yuheng Jiao Mingshuai Yao Jinsong Lan Qingwen Liu Ying Chen 84 0 0 18 Mar 2025
Quantum EigenGame for excited state calculation David Quiroga Jason Han Anastasios Kyrillidis 116 0 0 17 Mar 2025
Dynamic Relation Inference via Verb Embeddings Omri Suissa Muhiim Ali Ariana Azarbal Hui Shen Shekhar Pradhan 102 0 0 17 Mar 2025
Towards Scalable Foundation Model for Multi-modal and Hyperspectral Geospatial Data Haozhe Si Yuxuan Wan Minh Do Deepak Vasisht Han Zhao Hendrik Hamann 169 0 0 17 Mar 2025
Safe Vision-Language Models via Unsafe Weights Manipulation Moreno DÍncà E. Peruzzo Xingqian Xu Humphrey Shi N. Sebe Massimiliano Mancini MU 116 0 0 14 Mar 2025
Towards Understanding Graphical Perception in Large Multimodal Models Kai Zhang Jianwei Yang J. Inala Chandan Singh Jianfeng Gao Yu Su Chenglong Wang 93 1 0 13 Mar 2025
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning Pengfei Luo Jingbo Zhou Tong Xu Yuan Xia Linli Xu Enhong Chen LRM 151 0 0 13 Mar 2025
Leveraging Vision-Language Embeddings for Zero-Shot Learning in Histopathology Images M. Rahaman Ewan K. A. Millar Erik H. W. Meijering VLM 115 0 0 13 Mar 2025
ForAug: Recombining Foregrounds and Backgrounds to Improve Vision Transformer Training with Bias Mitigation Tobias Christian Nauen Brian B. Moser Federico Raue Stanislav Frolov Andreas Dengel ViT 185 0 0 12 Mar 2025
Is CLIP ideal? No. Can we fix it? Yes! Raphi Kang Yue Song Georgia Gkioxari Pietro Perona VLM 116 0 0 10 Mar 2025
Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models Md Azim Khan A. Gangopadhyay Jianwu Wang Robert F. Erbacher VLM 76 0 0 08 Mar 2025
Data-Efficient Generalization for Zero-shot Composed Image Retrieval Zining Chen Zhicheng Zhao Fei Su Xiaoqin Zhang Shijian Lu VLM 148 0 0 07 Mar 2025
Visual Cues of Gender and Race are Associated with Stereotyping in Vision-Language Models Messi H.J. Lee Soyeon Jeon Jacob M. Montgomery Calvin K. Lai VLM CoGe 84 0 0 07 Mar 2025
CLIP is Strong Enough to Fight Back: Test-time Counterattacks towards Zero-shot Adversarial Robustness of CLIP Songlong Xing Zhengyu Zhao N. Sebe AAML 153 2 0 05 Mar 2025
Language-Assisted Feature Transformation for Anomaly Detection EungGu Yun Heonjin Ha Yeongwoo Nam Bryan Dongik Lee 160 1 0 03 Mar 2025
Enhancing Monocular 3D Scene Completion with Diffusion Model Changlin Song Jiaqi Wang Liyun Zhu He Weng 3DGS 66 0 0 02 Mar 2025
TransVDM: Motion-Constrained Video Diffusion Model for Transparent Video Synthesis Menghao Li Zhenghao Zhang Junchao Liao Long Qin Weizhi Wang DiffM VGen 91 0 0 26 Feb 2025
Grad-ECLIP: Gradient-based Visual and Textual Explanations for CLIP Chenyang Zhao Kun Wang J. H. Hsiao Antoni B. Chan CLIP 108 0 0 26 Feb 2025
Pathology Report Generation and Multimodal Representation Learning for Cutaneous Melanocytic Lesions R. Lucassen Sander P.J. Moonemans Tijn van de Luijtgaarden Gerben E. Breimer W. Blokx M. Veta MedIm 92 2 0 26 Feb 2025
On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation R. Lucassen Tijn van de Luijtgaarden Sander P.J. Moonemans Gerben E. Breimer W. Blokx M. Veta 121 0 0 26 Feb 2025
CLIPure: Purification in Latent Space via CLIP for Adversarially Robust Zero-Shot Classification Mingkun Zhang Keping Bi Wei Chen Jiafeng Guo Xueqi Cheng BDL VLM 172 2 0 25 Feb 2025
DUNIA: Pixel-Sized Embeddings via Cross-Modal Alignment for Earth Observation Applications Ibrahim Fayad Max Zimmer Martin Schwartz P. Ciais Fabian Gieseke Gabriel Belouze Sarah Brood A. D. Truchis Alexandre d’Aspremont AI4TS 92 0 0 24 Feb 2025
Infrared Image Super-Resolution: Systematic Review, and Future Trends Y. Huang Tomo Miyazaki Xiao-Fang Liu S. Omachi SupR 154 14 0 21 Feb 2025
ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval Guanqi Zhan Yuanpei Liu Kai Han Weidi Xie Andrew Zisserman VLM 527 0 0 21 Feb 2025
MindLLM: A Subject-Agnostic and Versatile Model for fMRI-to-Text Decoding Weikang Qiu Zheng Huang Haoyu Hu Aosong Feng Yujun Yan Rex Ying 97 0 0 18 Feb 2025
A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards Shivansh Patel Xinchen Yin Wenlong Huang Shubham Garg H. Nayyeri Li Fei-Fei Svetlana Lazebnik Yongqian Li 181 1 0 12 Feb 2025
HCMRM: A High-Consistency Multimodal Relevance Model for Search Ads Guobing Gan Kaiming Gao Li Wang Shen Jiang Peng Jiang 97 0 0 09 Feb 2025