Title
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions Wenhai Wang Jifeng Dai Zhe Chen Zhenhang Huang Zhiqi Li ... Tong Lu Lewei Lu Hongsheng Li Xiaogang Wang Yu Qiao VLM 38 657 0 10 Nov 2022
High-Quality Entity Segmentation Lu Qi Jason Kuen Weidong Guo Tiancheng Shen Jiuxiang Gu Jiaya Jia Zhe-nan Lin Ming-Hsuan Yang ISeg 26 51 0 10 Nov 2022
Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models P. Schramowski Manuel Brack Bjorn Deiseroth Kristian Kersting 39 270 0 09 Nov 2022
Could Giant Pretrained Image Models Extract Universal Representations? Yutong Lin Ze Liu Zheng-Wei Zhang Han Hu Nanning Zheng Stephen Lin Yue Cao VLM 51 9 0 03 Nov 2022
Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection Yanxin Long Jianhua Han Runhu Huang Xu Hang Yi Zhu Chunjing Xu Xiaodan Liang VLM ObjD 32 18 0 02 Nov 2022
FairCLIP: Social Bias Elimination based on Attribute Prototype Learning and Representation Neutralization Junyan Wang Yi Zhang Jitao Sang FaML VLM 34 22 0 26 Oct 2022
Boomerang: Local sampling on image manifolds using diffusion models Lorenzo Luzi P. Mayer Josue Casco-Rodriguez Ali Siahkoohi Richard G. Baraniuk DiffM 32 20 0 21 Oct 2022
DiffEdit: Diffusion-based semantic image editing with mask guidance Guillaume Couairon Jakob Verbeek Holger Schwenk Matthieu Cord DiffM 62 482 0 20 Oct 2022
Perceptual Grouping in Contrastive Vision-Language Models Kanchana Ranasinghe Brandon McKinzie S. S. Ravi Yinfei Yang Alexander Toshev Jonathon Shlens VLM 30 51 0 18 Oct 2022
Non-Contrastive Learning Meets Language-Image Pre-Training Jinghao Zhou Li Dong Zhe Gan Lijuan Wang Furu Wei VLM CLIP 25 26 0 17 Oct 2022
2nd Place Solution to Google Universal Image Embedding Xiaolong Huang Qiankun Li SSL 32 2 0 17 Oct 2022
Large-scale Text-to-Image Generation Models for Visual Artists' Creative Works Hyung-Kwon Ko Gwanmo Park Hyeon Jeon Jaemin Jo Juho Kim Jinwook Seo 27 138 0 16 Oct 2022
LAION-5B: An open large-scale dataset for training next generation image-text models Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman ... Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt R. Kaczmarczyk J. Jitsev VLM MLLM CLIP 48 3,271 0 16 Oct 2022
Caption supervision enables robust learners Ben Feuer Ameya Joshi C. Hegde SSL CLIP VLM 39 2 0 13 Oct 2022
DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Generation Models Zeyang Sha Zheng Li Ning Yu Yang Zhang DiffM 28 115 0 13 Oct 2022
Unifying Diffusion Models' Latent Space, with Applications to CycleDiffusion and Guidance Chen Henry Wu Fernando de la Torre DiffM 28 66 0 11 Oct 2022
MuRAG: Multimodal Retrieval-Augmented Generator for Open Question Answering over Images and Text Wenhu Chen Hexiang Hu Xi Chen Pat Verga William W. Cohen RALM 16 143 0 06 Oct 2022
Large Language Models are Pretty Good Zero-Shot Video Game Bug Detectors Mohammad Reza Taesiri Finlay Macklon Yihe Wang Hengshuo Shen C. Bezemer ELM LLMAG MLLM 42 13 0 05 Oct 2022
Phenaki: Variable Length Video Generation From Open Domain Textual Description Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang M. Saffar Santiago Castro Julius Kunze D. Erhan DiffM VGen 56 371 0 05 Oct 2022
clip2latent: Text driven sampling of a pre-trained StyleGAN using denoising diffusion and CLIP Justin N. M. Pinkney Chuan Li CLIP VLM 52 20 0 05 Oct 2022
Vision+X: A Survey on Multimodal Learning in the Light of Data Ye Zhu Yuehua Wu N. Sebe Yan Yan 33 16 0 05 Oct 2022
Membership Inference Attacks Against Text-to-image Generation Models Yixin Wu Ning Yu Zheng Li Michael Backes Yang Zhang DiffM 21 65 0 03 Oct 2022
Multimodal Analogical Reasoning over Knowledge Graphs Ningyu Zhang Lei Li Xiang Chen Xiaozhuan Liang Shumin Deng Huajun Chen 54 26 0 01 Oct 2022
ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training Bin Shan Weichong Yin Yu Sun Hao Tian Hua-Hong Wu Haifeng Wang VLM 27 19 0 30 Sep 2022
Understanding Pure CLIP Guidance for Voxel Grid NeRF Models Han-Hung Lee Angel X. Chang 24 63 0 30 Sep 2022
Re-Imagen: Retrieval-Augmented Text-to-Image Generator Wenhu Chen Hexiang Hu Chitwan Saharia William W. Cohen VLM 125 161 0 29 Sep 2022
Implementing and Experimenting with Diffusion Models for Text-to-Image Generation Robin Zbinden 27 3 0 22 Sep 2022
Deep Lake: a Lakehouse for Deep Learning S. Hambardzumyan Abhina Tuli Levon Ghukasyan Fariz Rahman Hrant Topchyan ... Mark McQuade M. Harutyunyan Tatevik Hakobyan I. Stranic Davit Buniatyan 13 17 0 22 Sep 2022
Exploiting Cultural Biases via Homoglyphs in Text-to-Image Synthesis Lukas Struppek Dominik Hintersdorf Felix Friedrich Manuel Brack P. Schramowski Kristian Kersting 76 26 0 19 Sep 2022
LAVIS: A Library for Language-Vision Intelligence Dongxu Li Junnan Li Hung Le Guangsen Wang Silvio Savarese Guosheng Lin VLM 129 51 0 15 Sep 2022
Does CLIP Know My Face? Dominik Hintersdorf Lukas Struppek Manuel Brack Felix Friedrich P. Schramowski Kristian Kersting VLM 21 9 0 15 Sep 2022
Brain Imaging Generation with Latent Diffusion Models W. H. Pinaya Petru-Daniel Tudosiu J. Dafflon P. F. D. Costa Virginia Fernandez P. Nachev Sebastien Ourselin M. Jorge Cardoso DiffM MedIm 105 285 0 15 Sep 2022
Generative Visual Prompt: Unifying Distributional Control of Pre-Trained Generative Models Chen Henry Wu Saman Motamed Shaunak Srivastava Fernando de la Torre VLM DiffM 21 34 0 14 Sep 2022
MaXM: Towards Multilingual Visual Question Answering Soravit Changpinyo Linting Xue Michal Yarom Ashish V. Thapliyal Idan Szpektor J. Amelot Xi Chen Radu Soricut 33 8 0 12 Sep 2022
VL-Taboo: An Analysis of Attribute-based Zero-shot Capabilities of Vision-Language Models Felix Vogel Nina Shvetsova Leonid Karlinsky Hilde Kuehne VLM 63 7 0 12 Sep 2022
FETA: Towards Specializing Foundation Models for Expert Task Applications Amit Alfassy Assaf Arbelle Oshri Halimi Sivan Harary Roei Herzig ... Christoph Auer Kate Saenko Peter W. J. Staar Rogerio Feris Leonid Karlinsky 23 19 0 08 Sep 2022
Design of the topology for contrastive visual-textual alignment Zhun Sun 30 1 0 05 Sep 2022
Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment Mustafa Shukor Guillaume Couairon Matthieu Cord VLM CLIP 24 27 0 29 Aug 2022
Multimedia Generative Script Learning for Task Planning Qingyun Wang Manling Li Hou Pong Chan Lifu Huang J. Hockenmaier Girish Chowdhary Heng Ji VGen 34 10 0 25 Aug 2022
MaskCLIP: Masked Self-Distillation Advances Contrastive Language-Image Pretraining Xiaoyi Dong Jianmin Bao Yinglin Zheng Ting Zhang Dongdong Chen ... Weiming Zhang Lu Yuan Dong Chen Fang Wen Nenghai Yu CLIP VLM 54 158 0 25 Aug 2022
Patching open-vocabulary models by interpolating weights Gabriel Ilharco Mitchell Wortsman S. Gadre Shuran Song Hannaneh Hajishirzi Simon Kornblith Ali Farhadi Ludwig Schmidt VLM KELM 32 166 0 10 Aug 2022
Quality Not Quantity: On the Interaction between Dataset Design and Robustness of CLIP Thao Nguyen Gabriel Ilharco Mitchell Wortsman Sewoong Oh Ludwig Schmidt CLIP VLM 47 98 0 10 Aug 2022
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Rinon Gal Yuval Alaluf Y. Atzmon Or Patashnik Amit H. Bermano Gal Chechik Daniel Cohen-Or 36 1,782 0 02 Aug 2022
Group DETR: Fast DETR Training with Group-Wise One-to-Many Assignment Qiang Chen Xiaokang Chen Jian Wang Shan Zhang Kun Yao Haocheng Feng Junyu Han Errui Ding Gang Zeng Jingdong Wang ViT 49 120 0 26 Jul 2022
Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models Robin Rombach A. Blattmann Bjorn Ommer DiffM 18 70 0 26 Jul 2022
Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training Haoxuan You Luowei Zhou Bin Xiao Noel Codella Yu Cheng Ruochen Xu Shih-Fu Chang Lu Yuan CLIP VLM 24 48 0 26 Jul 2022
Robots Enact Malignant Stereotypes Andrew Hundt William Agnew V. Zeng Severin Kacianka Matthew C. Gombolay LM&Ro 35 41 0 23 Jul 2022
Is a Caption Worth a Thousand Images? A Controlled Study for Representation Learning Shibani Santurkar Yann Dubois Rohan Taori Percy Liang Tatsunori Hashimoto CLIP VLM 19 41 0 15 Jul 2022
Training Transformers Together Alexander Borzunov Max Ryabinin Tim Dettmers Quentin Lhoest Lucile Saulnier Michael Diskin Yacine Jernite Thomas Wolf ViT 31 8 0 07 Jul 2022
Dual-Stream Transformer for Generic Event Boundary Captioning Xin Gu Hanhua Ye Guang Chen Yufei Wang Libo Zhang Longyin Wen 11 4 0 07 Jul 2022