Title
Any-Resolution AI-Generated Image Detection by Spectral Learning Dimitrios Karageorgiou Symeon Papadopoulos I. Kompatsiaris Efstratios Gavves 103 0 0 28 Nov 2024
Steering Rectified Flow Models in the Vector Field for Controlled Image Generation Maitreya Patel Song Wen Dimitris N. Metaxas Yezhou Yang DiffM 116 4 0 27 Nov 2024
Diffusion Self-Distillation for Zero-Shot Customized Image Generation Shengqu Cai Eric Ryan Chan Yunzhi Zhang Leonidas J. Guibas Jiajun Wu Gordon Wetzstein 83 8 0 27 Nov 2024
Continuous Autoregressive Models with Noise Augmentation Avoid Error Accumulation Marco Pasini J. Nistal Stefan Lattner George Fazekas 69 3 0 27 Nov 2024
Enhancing MMDiT-Based Text-to-Image Models for Similar Subject Generation Tianyi Wei Dongdong Chen Yifan Zhou Xingang Pan EGVM 90 2 0 27 Nov 2024
Type-R: Automatically Retouching Typos for Text-to-Image Generation Wataru Shimoda Naoto Inoue Daichi Haraguchi Hayato Mitani S. Uchida Kota Yamaguchi DiffM 113 0 0 27 Nov 2024
ModeDreamer: Mode Guiding Score Distillation for Text-to-3D Generation using Reference Image Prompts Uy Dieu Tran Minh Luu P. Nguyen K. Nguyen Binh-Son Hua DiffM 81 1 0 27 Nov 2024
Generative Image Layer Decomposition with Visual Effects Jinrui Yang Qing Liu Yuan Li Seunggeun Kim D. Pakhomov Mengwei Ren Jianming Zhang Zhe-nan Lin Cihang Xie Yuyin Zhou DiffM 105 2 0 26 Nov 2024
Omegance: A Single Parameter for Various Granularities in Diffusion-Based Synthesis Xinyu Hou Zongsheng Yue Xiaoming Li Chen Change Loy VGen DiffM 104 0 0 26 Nov 2024
vesselFM: A Foundation Model for Universal 3D Blood Vessel Segmentation Bastian Wittmann Yannick Wattenberg Tamaz Amiranashvili Suprosanna Shit Bjoern H. Menze 89 3 0 26 Nov 2024
WF-VAE: Enhancing Video VAE by Wavelet-Driven Energy Flow for Latent Video Diffusion Model Zongjian Li Bin Lin Yang Ye Liuhan Chen Xinhua Cheng Shenghai Yuan Li-xin Yuan VGen DiffM 115 16 0 26 Nov 2024
One Diffusion to Generate Them All Duong H. Le Tuan Pham Sangho Lee Christopher Clark Aniruddha Kembhavi Stephan Mandt Ranjay Krishna Jiasen Lu VLM 79 5 0 25 Nov 2024
MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model Chenjie Cao Chaohui Yu Shang Liu Fan Wang Xiangyang Xue Yanwei Fu 97 1 0 25 Nov 2024
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis Hyojun Go Byeongjun Park Jiho Jang Jin-Young Kim Soonwoo Kwon Changick Kim 3DGS 116 2 0 25 Nov 2024
Unveil Inversion and Invariance in Flow Transformer for Versatile Image Editing P. Xu Boyuan Jiang Xiaobin Hu Donghao Luo Q. He Jingyang Zhang Chengjie Wang Yunsheng Wu Charles Ling Boyu Wang 95 2 0 24 Nov 2024
Interactive Visual Assessment for Text-to-Image Generation Models Xiaoyue Mi Fan Tang Juan Cao Qiang Sheng Ziyao Huang Peng Li Yi Liu Tong-Yee Lee EGVM 76 0 0 23 Nov 2024
Large-Scale Text-to-Image Model with Inpainting is a Zero-Shot Subject-Driven Image Generator Chaehun Shin Jooyoung Choi Heeseung Kim Sungroh Yoon DiffM 89 8 0 23 Nov 2024
GIFT: A Framework for Global Interpretable Faithful Textual Explanations of Vision Classifiers Éloi Zablocki Valentin Gerard Amaia Cardiel Eric Gaussier Matthieu Cord Eduardo Valle 84 0 0 23 Nov 2024
AnyText2: Visual Text Generation and Editing With Customizable Attributes Yuxiang Tuo Yifeng Geng Liefeng Bo VLM 93 6 0 22 Nov 2024
Text Embedding is Not All You Need: Attention Control for Text-to-Image Semantic Alignment with Text Self-Attention Maps Jeeyung Kim Erfan Esmaeili Qiang Qiu DiffM 90 1 0 21 Nov 2024
MMGenBench: Fully Automatically Evaluating LMMs from the Text-to-Image Generation Perspective Hailang Huang Yong Wang Zixuan Huang Huaqiu Li Tongwen Huang Xiangxiang Chu Richong Zhang MLLM LM&MA EGVM 85 0 0 21 Nov 2024
MAS-Attention: Memory-Aware Stream Processing for Attention Acceleration on Resource-Constrained Edge Devices Mohammadali Shakerdargah Shan Lu Chao Gao Di Niu 75 0 0 20 Nov 2024
Aligning Few-Step Diffusion Models with Dense Reward Difference Learning Ziyi Zhang Li Shen Sen Zhang Deheng Ye Yong Luo Miaojing Shi Bo Du Dacheng Tao 97 0 0 18 Nov 2024
MEMO-Bench: A Multiple Benchmark for Text-to-Image and Multimodal Large Language Models on Human Emotion Analysis Yingjie Zhou Zicheng Zhang Jiezhang Cao Jun Jia Yanwei Jiang Farong Wen Xiaohong Liu Xiongkuo Min Guangtao Zhai 53 4 0 18 Nov 2024
LaVin-DiT: Large Vision Diffusion Transformer Zhaoqing Wang Xiaobo Xia Runnan Chen Dongdong Yu Changhu Wang Mingming Gong Tongliang Liu 100 6 0 18 Nov 2024
C-DiffSET: Leveraging Latent Diffusion for SAR-to-EO Image Translation with Confidence-Guided Reliable Object Generation Jeonghyeok Do Jaehyup Lee Munchurl Kim DiffM 53 1 0 16 Nov 2024
TDSM: Triplet Diffusion for Skeleton-Text Matching in Zero-Shot Action Recognition Jeonghyeok Do Munchurl Kim 51 1 0 16 Nov 2024
FitDiT: Advancing the Authentic Garment Details for High-fidelity Virtual Try-on Boyuan Jiang Xiaobin Hu Donghao Luo Q. He C. Xu Jinlong Peng Jingyang Zhang Chengjie Wang Yunsheng Wu Yanwei Fu DiffM 44 6 0 15 Nov 2024
NeuralDEM -- Real-time Simulation of Industrial Particulate Flows Benedikt Alkin Tobias Kronlachner Samuele Papa Stefan Pirker Thomas Lichtenegger Johannes Brandstetter PINN AI4CE 57 1 1 14 Nov 2024
Latent Space Disentanglement in Diffusion Transformers Enables Precise Zero-shot Semantic Editing Zitao Shuai Chenwei Wu Zhengxu Tang Bowen Song Liyue Shen DiffM 70 0 0 12 Nov 2024
Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings Aditya Sanghi Aliasghar Khani Pradyumna Reddy Arianna Rampini Derek Cheung Kamal Rahimi Malekshan Kanika Madan Hooman Shayani 48 3 0 12 Nov 2024
GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation Yushi Lan Shangchen Zhou Zhaoyang Lyu Fangzhou Hong Shuai Yang Bo Dai Xingang Pan Chen Change Loy 3DGS 55 0 0 12 Nov 2024
FlowTS: Time Series Generation via Rectified Flow Yang Hu Xueliang Wang Lirong Wu Huatian Zhang Stan Z. Li Sheng Wang Jen-tse Huang Jiheng Zhang Ziyun Li Tianlong Chen AI4TS 26 0 0 12 Nov 2024
Edify Image: High-Quality Image Generation with Pixel Space Laplacian Diffusion Models Nvidia : Yuval Atzmon Maciej Bala Yogesh Balaji ... Ting-Chun Wang Shuran Song Fangyin Wei Yu Zeng Qinsheng Zhang 58 6 0 11 Nov 2024
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision Cong Wei Zheyang Xiong Weiming Ren Xinrun Du Ge Zhang Wenhu Chen 121 19 0 11 Nov 2024
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement Zhennan Chen Yajie Li Haofan Wang Z. Chen Zhengkai Jiang Jun Yu Li Qian Wang Jian Yang Ying Tai DiffM 52 8 0 10 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... Hao Fei Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 48 9 0 08 Nov 2024
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation Anil Kag Huseyin Coskun Jierun Chen Junli Cao Willi Menapace Aliaksandr Siarohin Sergey Tulyakov Jian Ren 51 3 0 07 Nov 2024
Stem-OB: Generalizable Visual Imitation Learning with Stem-Like Convergent Observation through Diffusion Inversion Kaizhe Hu Zihang Rui Yao He Yuyao Liu Pu Hua Huazhe Xu 44 1 0 07 Nov 2024
Boosting Latent Diffusion with Perceptual Objectives Tariq Berrada Pietro Astolfi Jakob Verbeek Melissa Hall Marton Havasi M. Drozdzal Yohann Benchetrit Adriana Romero Soriano Karteek Alahari 48 0 0 06 Nov 2024
DiMSUM: Diffusion Mamba -- A Scalable and Unified Spatial-Frequency Method for Image Generation Hao Phung Quan Dao T. Dao Hoang Phan Dimitris Metaxas Anh Tran Mamba 67 4 0 06 Nov 2024
On Improved Conditioning Mechanisms and Pre-training Strategies for Diffusion Models Tariq Berrada Ifriqi Pietro Astolfi Melissa Hall Reyhane Askari Hemmat Yohann Benchetrit ... Matthew Muckley Karteek Alahari Adriana Romero Soriano Jakob Verbeek M. Drozdzal AI4CE VLM 75 2 0 05 Nov 2024
Training-free Regional Prompting for Diffusion Transformers Anthony Chen Jianjin Xu Wenzhao Zheng Gaole Dai Yishuo Wang Renrui Zhang Haofan Wang Shanghang Zhang VLM 42 2 0 04 Nov 2024
GenXD: Generating Any 3D and 4D Scenes Yuyang Zhao Chung-Ching Lin Kevin Qinghong Lin Zhiwen Yan Linjie Li Zhiyong Yang Jianfeng Wang G. Lee Lijuan Wang VGen 54 14 0 04 Nov 2024
MoMu-Diffusion: On Learning Long-Term Motion-Music Synchronization and Correspondence Fuming You Minghui Fang Li Tang Rongjie Huang Yongqi Wang Zhou Zhao 23 2 0 04 Nov 2024
xDiT: an Inference Engine for Diffusion Transformers (DiTs) with Massive Parallelism Jiarui Fang Jinzhe Pan Xibo Sun Aoyu Li Jiannan Wang 59 5 0 04 Nov 2024
Randomized Autoregressive Visual Generation Qihang Yu Ju He XueQing Deng Xiaohui Shen Liang-Chieh Chen VGen DiffM 57 31 1 01 Nov 2024
TextDestroyer: A Training- and Annotation-Free Diffusion Method for Destroying Anomal Text from Images Mengcheng Li Mingbao Lin Rongrong Ji Chia-Wen Lin Rongrong Ji DiffM 56 0 0 01 Nov 2024
Constant Acceleration Flow Dogyun Park Sojin Lee S. Kim Taehoon Lee Youngjoon Hong Hyunwoo J. Kim 63 2 0 01 Nov 2024
Scaling Concept With Text-Guided Diffusion Models Chao Huang Susan Liang Yunlong Tang Yapeng Tian Anurag Kumar Chenliang Xu DiffM 59 6 0 31 Oct 2024