ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data

22 August 2023

M. Varma

Jean-Benoit Delbrouck

Papers citing "ViLLA: Fine-Grained Vision-Language Representation Learning from Real-World Data"

27 / 27 papers shown

Title
Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement Zijie Yue Miaojing Shi Hanli Wang Shuai Ding Qijun Chen Shanlin Yang 69 0 0 11 Jul 2024
RoentGen: Vision-Language Foundation Model for Chest X-ray Generation Pierre J. Chambon Christian Blüthgen Jean-Benoit Delbrouck Rogier van der Sluijs M. Polacin Juan Manuel Zambrano Chaves Tanishq Mathew Abraham Shivanshu Purohit C. Langlotz Akshay S. Chaudhari LM&MA DiffM MedIm 56 102 0 23 Nov 2022
LAION-5B: An open large-scale dataset for training next generation image-text models Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman ... Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt R. Kaczmarczyk J. Jitsev VLM MLLM CLIP 139 3,438 0 16 Oct 2022
FETA: Towards Specializing Foundation Models for Expert Task Applications Amit Alfassy Assaf Arbelle Oshri Halimi Sivan Harary Roei Herzig ... Christoph Auer Kate Saenko Peter W. J. Staar Rogerio Feris Leonid Karlinsky 50 19 0 08 Sep 2022
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection H. Rasheed Muhammad Maaz Muhammad Uzair Khattak Salman Khan Fahad Shahbaz Khan ObjD VLM 93 154 0 07 Jul 2022
Making the Most of Text Semantics to Improve Biomedical Vision--Language Processing Benedikt Boecking Naoto Usuyama Shruthi Bannur Daniel Coelho De Castro Anton Schwaighofer ... Tristan Naumann A. Nori Javier Alvarez-Valle Hoifung Poon Ozan Oktay 60 242 0 21 Apr 2022
Contrastive language and vision learning of general fashion concepts P. Chia Giuseppe Attanasio Federico Bianchi Silvia Terragni A. Magalhães Diogo Gonçalves C. Greco Jacopo Tagliabue CLIP 48 44 0 08 Apr 2022
Image Retrieval from Contextual Descriptions Benno Krojer Vaibhav Adlakha Vibhav Vineet Yash Goyal Edoardo Ponti Siva Reddy 52 31 0 29 Mar 2022
Domino: Discovering Systematic Errors with Cross-Modal Embeddings Sabri Eyuboglu M. Varma Khaled Kamal Saab Jean-Benoit Delbrouck Christopher Lee-Messer Jared A. Dunnmon James Zou Christopher Ré 62 147 0 24 Mar 2022
RegionCLIP: Region-based Language-Image Pretraining Yiwu Zhong Jianwei Yang Pengchuan Zhang Chunyuan Li Noel Codella ... Luowei Zhou Xiyang Dai Lu Yuan Yin Li Jianfeng Gao VLM CLIP 126 575 0 16 Dec 2021
Grounded Language-Image Pre-training Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li ... Lu Yuan Lei Zhang Lei Li Kai-Wei Chang Jianfeng Gao ObjD VLM 105 1,058 0 07 Dec 2021
Combined Scaling for Zero-shot Transfer Learning Hieu H. Pham Zihang Dai Golnaz Ghiasi Kenji Kawaguchi Hanxiao Liu ... Yi-Ting Chen Minh-Thang Luong Yonghui Wu Mingxing Tan Quoc V. Le VLM 60 199 0 19 Nov 2021
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts Yan Zeng Xinsong Zhang Hang Li VLM CLIP 59 305 0 16 Nov 2021
FILIP: Fine-grained Interactive Language-Image Pre-Training Lewei Yao Runhu Huang Lu Hou Guansong Lu Minzhe Niu Hang Xu Xiaodan Liang Zhenguo Li Xin Jiang Chunjing Xu VLM CLIP 88 634 0 09 Nov 2021
CLIP-Adapter: Better Vision-Language Models with Feature Adapters Peng Gao Shijie Geng Renrui Zhang Teli Ma Rongyao Fang Yongfeng Zhang Hongsheng Li Yu Qiao VLM CLIP 259 1,035 0 09 Oct 2021
RadGraph: Extracting Clinical Entities and Relations from Radiology Reports Saahil Jain Ashwin Agrawal A. Saporta Steven QH Truong D. Duong ... Yuhao Zhang M. Lungren A. Ng C. Langlotz Pranav Rajpurkar MedIm 90 210 0 28 Jun 2021
End-to-End Semi-Supervised Object Detection with Soft Teacher Mengde Xu Zheng Zhang Han Hu Jianfeng Wang Lijuan Wang Fangyun Wei X. Bai Zicheng Liu 63 494 0 16 Jun 2021
Open-vocabulary Object Detection via Vision and Language Knowledge Distillation Xiuye Gu Nayeon Lee Weicheng Kuo Huayu Chen VLM ObjD 263 915 0 28 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 422 3,839 0 11 Feb 2021
Open-Vocabulary Object Detection Using Captions Alireza Zareian Kevin Dela Rosa Derek Hao Hu Shih-Fu Chang VLM ObjD 120 429 0 20 Nov 2020
Contrastive Learning of Medical Visual Representations from Paired Images and Text Yuhao Zhang Hang Jiang Yasuhide Miura Christopher D. Manning C. Langlotz MedIm 120 758 0 02 Oct 2020
A Simple Semi-Supervised Learning Framework for Object Detection Kihyuk Sohn Zizhao Zhang Chun-Liang Li Han Zhang Chen-Yu Lee Tomas Pfister 75 496 0 10 May 2020
COVID-Net: A Tailored Deep Convolutional Neural Network Design for Detection of COVID-19 Cases from Chest X-Ray Images Linda Wang A. Wong OOD 99 2,502 0 22 Mar 2020
Momentum Contrast for Unsupervised Visual Representation Learning Kaiming He Haoqi Fan Yuxin Wu Saining Xie Ross B. Girshick SSL 179 12,065 0 13 Nov 2019
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 1.2K 12,129 0 27 Aug 2019
LVIS: A Dataset for Large Vocabulary Instance Segmentation Agrim Gupta Piotr Dollár Ross B. Girshick ISeg VLM 100 1,365 0 08 Aug 2019
CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison Jeremy Irvin Pranav Rajpurkar M. Ko Yifan Yu Silviana Ciurea-Ilcus ... D. Larson C. Langlotz Bhavik Patel M. Lungren A. Ng 110 2,591 0 21 Jan 2019