Title
Extreme Generative Image Compression by Learning Text Embedding from Diffusion Models Zhihong Pan Xiaoxia Zhou Hao Tian DiffM 75 23 0 14 Nov 2022
Arbitrary Style Guidance for Enhanced Diffusion-Based Text-to-Image Generation Zhihong Pan Xiaoxia Zhou Hao Tian DiffM 62 12 0 14 Nov 2022
EVA: Exploring the Limits of Masked Visual Representation Learning at Scale Yuxin Fang Wen Wang Binhui Xie Quan-Sen Sun Ledell Yu Wu Xinggang Wang Tiejun Huang Xinlong Wang Yue Cao VLM CLIP 237 729 0 14 Nov 2022
Latent-NeRF for Shape-Guided Generation of 3D Shapes and Textures G. Metzer Elad Richardson Or Patashnik Raja Giryes Daniel Cohen-Or DiffM 192 471 0 14 Nov 2022
Language models are good pathologists: using attention-based sequence reduction and text-pretrained transformers for efficient WSI classification Juan Pisula Katarzyna Bozek VLM MedIm 83 3 0 14 Nov 2022
Large-Scale Bidirectional Training for Zero-Shot Image Captioning Taehoon Kim Mark A Marsden Pyunghwan Ahn Sangyun Kim Sihaeng Lee Alessandra Sala S. Kim VLM 62 4 0 13 Nov 2022
Design of Unmanned Air Vehicles Using Transformer Surrogate Models Adam D. Cobb Anirban Roy Daniel Elenius Susmit Jha AI4CE 43 1 0 11 Nov 2022
SSGVS: Semantic Scene Graph-to-Video Synthesis Yuren Cong Jinhui Yi Bodo Rosenhahn M. Yang 133 8 0 11 Nov 2022
Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models P. Schramowski Manuel Brack Bjorn Deiseroth Kristian Kersting 157 312 0 09 Nov 2022
DiffPhase: Generative Diffusion-based STFT Phase Retrieval Tal Peer Simon Welker Timo Gerkmann DiffM 92 7 0 08 Nov 2022
Self-conditioned Embedding Diffusion for Text Generation Robin Strudel Corentin Tallec Florent Altché Yilun Du Yaroslav Ganin ... Will Grathwohl Nikolay Savinov Sander Dieleman Laurent Sifre Rémi Leblond DiffM 89 88 0 08 Nov 2022
Rickrolling the Artist: Injecting Backdoors into Text Encoders for Text-to-Image Synthesis Lukas Struppek Dominik Hintersdorf Kristian Kersting SILM 130 40 0 04 Nov 2022
Evaluating a Synthetic Image Dataset Generated with Stable Diffusion Andreas Stöckl 82 23 0 03 Nov 2022
eDiff-I: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers Yogesh Balaji Seungjun Nah Xun Huang Arash Vahdat Jiaming Song ... Timo Aila S. Laine Bryan Catanzaro Tero Karras Xuan Li VLM MoE 213 832 0 02 Nov 2022
DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models Cheng Lu Yuhao Zhou Fan Bao Jianfei Chen Chongxuan Li Jun Zhu DiffM 249 616 0 02 Nov 2022
MedSegDiff: Medical Image Segmentation with Diffusion Probabilistic Model Junde Wu Rao Fu Huihui Fang Yu Zhang Yehui Yang Haoyi Xiong Huiying Liu Yanwu Xu MedIm VLM DiffM 240 254 0 01 Nov 2022
MagicMix: Semantic Mixing with Diffusion Models Jun Hao Liew Hanshu Yan Daquan Zhou Jiashi Feng DiffM 233 64 0 28 Oct 2022
UPainting: Unified Text-to-Image Diffusion Generation with Cross-modal Guidance Wei Li Xue Xu Xinyan Xiao Jiacheng Liu Hu Yang ... Zhanpeng Wang Zhifan Feng Qiaoqiao She Yajuan Lyu Hua Wu 232 30 0 28 Oct 2022
How well can Text-to-Image Generative Models understand Ethical Natural Language Interventions? Hritik Bansal Da Yin Masoud Monajatipoor Kai-Wei Chang 111 103 0 27 Oct 2022
DiffusionDB: A Large-scale Prompt Gallery Dataset for Text-to-Image Generative Models Zijie J. Wang Evan Montoya David Munechika Haoyang Yang Benjamin Hoover Duen Horng Chau 136 305 0 26 Oct 2022
Categorical SDEs with Simplex Diffusion Pierre Harvey Richemond Sander Dieleman Arnaud Doucet DiffM 72 26 0 26 Oct 2022
Full-band General Audio Synthesis with Score-based Diffusion Santiago Pascual Gautam Bhattacharya Chunghsin Yeh Jordi Pons Joan Serrà DiffM 64 35 0 26 Oct 2022
Towards the Detection of Diffusion Model Deepfakes Jonas Ricker Simon Damm Thorsten Holz Asja Fischer DiffM 129 107 0 26 Oct 2022
Lafite2: Few-shot Text-to-Image Generation Yufan Zhou Chunyuan Li Changyou Chen Jianfeng Gao Jinhui Xu DiffM 108 11 0 25 Oct 2022
High-Resolution Image Editing via Multi-Stage Blended Diffusion J. Ackermann Minjun Li DiffM 68 16 0 24 Oct 2022
Tools for Extracting Spatio-Temporal Patterns in Meteorological Image Sequences: From Feature Engineering to Attention-Based Neural Networks A. S. Bansal Yoonjin Lee Kyle Hilburn I. Ebert‐Uphoff AI4TS 94 2 0 22 Oct 2022
Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination Yue Yang Wenlin Yao Hongming Zhang Xiaoyang Wang Dong Yu Jianshu Chen VLM 99 22 0 21 Oct 2022
Conditional Diffusion with Less Explicit Guidance via Model Predictive Control Max W. Shen Ehsan Hajiramezanali Gabriele Scalia Alex Tseng N. Diamant Tommaso Biancalani Andreas Loukas 85 1 0 21 Oct 2022
Boomerang: Local sampling on image manifolds using diffusion models Lorenzo Luzi P. Mayer Josue Casco-Rodriguez Ali Siahkoohi Richard G. Baraniuk DiffM 108 20 0 21 Oct 2022
3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows Vivian Liu Jo Vermeulen G. Fitzmaurice Justin Matejka HAI 88 126 0 20 Oct 2022
Composing Ensembles of Pre-trained Models via Iterative Consensus Shuang Li Yilun Du J. Tenenbaum Antonio Torralba Igor Mordatch MoMe 73 25 0 20 Oct 2022
DiffEdit: Diffusion-based semantic image editing with mask guidance Guillaume Couairon Jakob Verbeek Holger Schwenk Matthieu Cord DiffM 151 515 0 20 Oct 2022
OCR-VQGAN: Taming Text-within-Image Generation Juan A. Rodriguez David Vazquez I. Laradji M. Pedersoli Pau Rodríguez López 152 20 0 19 Oct 2022
Language Models Understand Us, Poorly Jared Moore LRM 50 4 0 19 Oct 2022
DALLE-2 is Seeing Double: Flaws in Word-to-Concept Mapping in Text2Image Models Royi Rassin Shauli Ravfogel Yoav Goldberg 74 61 0 19 Oct 2022
Differentially Private Diffusion Models Tim Dockhorn Tianshi Cao Arash Vahdat Karsten Kreis DiffM 89 100 0 18 Oct 2022
Swinv2-Imagen: Hierarchical Vision Transformer Diffusion Models for Text-to-Image Generation Rui Li Weihua Li Yi Yang Hanyu Wei Jianhua Jiang Quan-wei Bai DiffM 150 11 0 18 Oct 2022
Imagic: Text-Based Real Image Editing with Diffusion Models Bahjat Kawar Shiran Zada Oran Lang Omer Tov Hui-Tang Chang Tali Dekel Inbar Mosseri Michal Irani 136 1,105 0 17 Oct 2022
DiffuSeq: Sequence to Sequence Text Generation with Diffusion Models Shansan Gong Mukai Li Jiangtao Feng Zhiyong Wu Lingpeng Kong 96 334 0 17 Oct 2022
LAION-5B: An open large-scale dataset for training next generation image-text models Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman ... Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt R. Kaczmarczyk J. Jitsev VLM MLLM CLIP 231 3,520 0 16 Oct 2022
TransFusion: Transcribing Speech with Multinomial Diffusion Matthew Baas Kevin Eloff Herman Kamper DiffM 31 4 0 14 Oct 2022
Is synthetic data from generative models ready for image recognition? Ruifei He Shuyang Sun Xin Yu Chuhui Xue Wenqing Zhang Philip Torr Song Bai Xiaojuan Qi 132 302 0 14 Oct 2022
MTEB: Massive Text Embedding Benchmark Niklas Muennighoff Nouamane Tazi L. Magne Nils Reimers 575 422 0 13 Oct 2022
DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Generation Models Zeyang Sha Zheng Li Ning Yu Yang Zhang DiffM 106 135 0 13 Oct 2022
ImaginaryNet: Learning Object Detectors without Real Images and Annotations Minheng Ni Zitong Huang Kai-Hua Feng W. Zuo VLM 108 16 0 13 Oct 2022
Compute-Efficient Deep Learning: Algorithmic Trends and Opportunities Brian Bartoldson B. Kailkhura Davis W. Blalock 107 51 0 13 Oct 2022
Self-Guided Diffusion Models Vincent Tao Hu David W. Zhang Yuki M. Asano Gertjan J. Burghouts Cees G. M. Snoek 126 33 0 12 Oct 2022
LION: Latent Point Diffusion Models for 3D Shape Generation Fangyin Wei Arash Vahdat Francis Williams Zan Gojcic Or Litany Sanja Fidler Karsten Kreis DiffM 157 506 0 12 Oct 2022
Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion Image Manipulation Chaerin Kong D. Jeon Oh-Hun Kwon Nojun Kwak DiffM 77 17 0 12 Oct 2022
Underspecification in Scene Description-to-Depiction Tasks Ben Hutchinson Jason Baldridge Vinodkumar Prabhakaran DiffM 128 34 0 11 Oct 2022