Title
How to Defend Against Large-scale Model Poisoning Attacks in Federated Learning: A Vertical Solution Jinbo Wang Ruijin Wang Fengli Zhang FedML AAML 71 0 0 16 Nov 2024
GSEditPro: 3D Gaussian Splatting Editing with Attention-based Progressive Localization Yanhao Sun RunZe Tian Xiao Han XinYao Liu Yan Zhang Kai Xu 3DGS DiffM 68 2 0 15 Nov 2024
Artificial Intelligence for Biomedical Video Generation Linyuan Li Jianing Qiu Anujit Saha Lin Li Poyuan Li Mengxian He Ziyu Guo Wu Yuan VGen 177 0 0 12 Nov 2024
ENAT: Rethinking Spatial-temporal Interactions in Token-based Image Synthesis Zanlin Ni Yulin Wang Renping Zhou Yizeng Han Jiayi Guo Zhiyuan Liu Yuan Yao Gao Huang 103 5 0 11 Nov 2024
Region-Aware Text-to-Image Generation via Hard Binding and Soft Refinement Zhennan Chen Yajie Li Haofan Wang Zheyu Chen Zhengkai Jiang Jun Yu Li Qian Wang Jian Yang Ying Tai DiffM 108 9 0 10 Nov 2024
Scalable, Tokenization-Free Diffusion Model Architectures with Efficient Initial Convolution and Fixed-Size Reusable Structures for On-Device Image Generation Sanchar Palit Sathya Veera Reddy Dendi Mallikarjuna Talluri Raj Narayana Gadde 69 0 0 09 Nov 2024
Autoregressive Models in Vision: A Survey Jing Xiong Gongye Liu Lun Huang Chengyue Wu Taiqiang Wu ... Hao Fei Guillermo Sapiro Jiebo Luo Ping Luo Ngai Wong VGen 191 14 0 08 Nov 2024
Clustering in Causal Attention Masking Nikita Karagodin Yury Polyanskiy Philippe Rigollet 134 7 0 07 Nov 2024
AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation Anil Kag Huseyin Coskun Jierun Chen Junli Cao Willi Menapace Aliaksandr Siarohin Sergey Tulyakov Jian Ren 93 3 0 07 Nov 2024
DomainGallery: Few-shot Domain-driven Image Generation by Attribute-centric Finetuning Yuxuan Duan Y. Hong Bo Zhang Jun Lan Huijia Zhu Weiqiang Wang Jianfu Zhang Li Niu Lefei Zhang DiffM 114 0 0 07 Nov 2024
Image Understanding Makes for A Good Tokenizer for Image Generation Luting Wang Yang Zhao Zijian Zhang Jiashi Feng Si Liu Bingyi Kang VLM 89 4 0 07 Nov 2024
ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models Ashutosh Srivastava Tarun Ram Menta Abhinav Java Avadhoot Jadhav Silky Singh Surgan Jandial Balaji Krishnamurthy DiffM 74 1 0 06 Nov 2024
SEE-DPO: Self Entropy Enhanced Direct Preference Optimization Shivanshu Shekhar Shreyas Singh Tong Zhang 76 4 0 06 Nov 2024
Addressing Representation Collapse in Vector Quantized Models with One Linear Layer Yongxin Zhu Bing Li Yifei Xin Linli Xu 113 13 0 04 Nov 2024
Randomized Autoregressive Visual Generation Qihang Yu Ju He XueQing Deng Xiaohui Shen Liang-Chieh Chen VGen DiffM 138 40 1 01 Nov 2024
Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective Shenghao Xie Wenqiang Zu Mingyang Zhao Duo Su Shilong Liu Ruohua Shi Guoqi Li Shanghang Zhang Lei Ma LRM 151 3 0 29 Oct 2024
Benchmarking Human and Automated Prompting in the Segment Anything Model Jorge Quesada Zoe Fowler Mohammad Alotaibi Mohit Prabhushankar Ghassan AlRegib VLM 66 2 0 29 Oct 2024
MotionGPT-2: A General-Purpose Motion-Language Model for Motion Generation and Understanding Yuan Wang Di Huang Yaqi Zhang Wanli Ouyang J. Jiao Xuetao Feng Yan Zhou Pengfei Wan Shixiang Tang Dan Xu VGen 113 16 0 29 Oct 2024
Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis Deepak Sridhar Abhishek Peri Rohith Rachala Nuno Vasconcelos DiffM 64 1 0 29 Oct 2024
NeuZip: Memory-Efficient Training and Inference with Dynamic Compression of Neural Networks Yongchang Hao Yanshuai Cao Lili Mou MQ 76 4 0 28 Oct 2024
Simpler Diffusion (SiD2): 1.5 FID on ImageNet512 with pixel-space diffusion Emiel Hoogeboom Thomas Mensink Jonathan Heek Kay Lamerigts Ruiqi Gao Tim Salimans 470 13 0 25 Oct 2024
FairQueue: Rethinking Prompt Learning for Fair Text-to-Image Generation Christopher T. H. Teo Milad Abdollahzadeh Xinda Ma Ngai-Man Cheung DiffM 68 2 0 24 Oct 2024
Robust Watermarking Using Generative Priors Against Image Editing: From Benchmarking to Advances Shilin Lu Zihan Zhou Jiayou Lu Yuanzhi Zhu A. Kong WIGM 145 15 0 24 Oct 2024
Fast constrained sampling in pre-trained diffusion models Alexandros Graikos Nebojsa Jojic Dimitris Samaras DiffM 137 1 0 24 Oct 2024
How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? Jiahua Dong Wenqi Liang Hongliu Li Duzhen Zhang Meng Cao Henghui Ding Salman Khan Fahad Shahbaz Khan DiffM 90 13 0 23 Oct 2024
DiP-GO: A Diffusion Pruner via Few-step Gradient Optimization Haowei Zhu Dehua Tang Ji Liu Mingjie Lu Jintu Zheng ... Spandan Tiwari Ashish Sirasao Jun-Hai Yong Bin Wang E. Barsoum DiffM 84 9 0 22 Oct 2024
Elucidating the design space of language models for image generation Xuantong Liu Shaozhe Hao Xianbiao Qi Tianyang Hu Jun Wang Rong Xiao Yuan Yao VLM 80 3 0 21 Oct 2024
Opportunities and Challenges of Generative-AI in Finance Akshar Prabhu Desai Ganesh Satish Mallya Mohammad Luqman Tejasvi Ravi Nithya Kota Pranjul Yadav AIFin 125 4 0 21 Oct 2024
BiGR: Harnessing Binary Latent Codes for Image Generation and Improved Visual Representation Capabilities Shaozhe Hao Xuantong Liu Xianbiao Qi Shihao Zhao Bojia Zi Rong Xiao Kai Han Kwan-Yee K. Wong 198 3 0 18 Oct 2024
Assessing Open-world Forgetting in Generative Image Model Customization Héctor Laria Alex Gomez-Villa Imad Eddine Marouf Bogdan Raducanu Bogdan Raducanu VLM DiffM 114 0 0 18 Oct 2024
Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens Lijie Fan Tianhong Li Siyang Qin Yuanzhen Li Chen Sun Michael Rubinstein Deqing Sun Kaiming He Yonglong Tian VLM DiffM 131 57 0 17 Oct 2024
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models Donghao Zhou Jiancheng Huang J. Bai Jiaze Wang Hao Chen Guangyong Chen Xiaowei Hu Pheng Ann Heng 146 5 0 17 Oct 2024
Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement Zhi Wang Li Zhang Wenhao Wu Yuanheng Zhu Dongbin Zhao C. L. Philip Chen OffRL 102 9 0 15 Oct 2024
Customize Your Visual Autoregressive Recipe with Set Autoregressive Modeling Wenze Liu Le Zhuo Yi Xin Sheng Xia Peng Gao Xiangyu Yue 125 9 0 14 Oct 2024
Evaluating Semantic Variation in Text-to-Image Synthesis: A Causal Perspective Xiangru Zhu Penglei Sun Yaoxian Song Yanghua Xiao Zhixu Li Chengyu Wang Jun Huang Bei Yang Xiaoxiao Xu EGVM 514 2 0 14 Oct 2024
Generating Intermediate Representations for Compositional Text-To-Image Generation Ran Galun Sagie Benaim 49 0 0 13 Oct 2024
Toward Guidance-Free AR Visual Generation via Condition Contrastive Alignment Huayu Chen Hang Su Peize Sun Jun Zhu VLM 84 4 0 12 Oct 2024
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation Jiatao Gu Yuyang Wang Yizhe Zhang Qihang Zhang Dinghuai Zhang Navdeep Jaitly Josh Susskind Shuangfei Zhai DiffM 135 17 0 10 Oct 2024
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis Jinbin Bai Tian-Chun Ye Wei Chow Enxin Song Qing-Guo Chen Hefei Ling Zhen Dong Lei Zhu 162 19 0 10 Oct 2024
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models Rui Zhao Hangjie Yuan Yujie Wei Shiwei Zhang Yuchao Gu ... Xiang Wang Zhangjie Wu Junhao Zhang Yingya Zhang Mike Zheng Shou DiffM VLM 119 4 0 09 Oct 2024
Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow Fu-Yun Wang Ling Yang Zhaoyang Huang Mengdi Wang Hongsheng Li 78 21 0 09 Oct 2024
Decouple-Then-Merge: Finetune Diffusion Models as Multi-Task Learning Qianli Ma Xuefei Ning Dongrui Liu Li Niu Linfeng Zhang MoMe 122 0 0 09 Oct 2024
Diversity-Rewarded CFG Distillation Geoffrey Cideron A. Agostinelli Johan Ferret Sertan Girgin Romuald Elie Olivier Bachem Sarah Perrin Alexandre Ramé 94 2 0 08 Oct 2024
Learning on LoRAs: GL-Equivariant Processing of Low-Rank Weight Spaces for Large Finetuned Models Theo Putterman Derek Lim Yoav Gelberg Stefanie Jegelka Haggai Maron AI4CE 102 6 0 05 Oct 2024
Did You Hear That? Introducing AADG: A Framework for Generating Benchmark Data in Audio Anomaly Detection Ksheeraja Raghavan Samiran Gode Ankit Parag Shah Surabhi Raghavan Wolfram Burgard Bhiksha Raj Rita Singh 76 0 0 04 Oct 2024
LANTERN: Accelerating Visual Autoregressive Models with Relaxed Speculative Decoding Doohyuk Jang Sihwan Park J. Yang Yeonsung Jung Jihun Yun Souvik Kundu Sung-Yub Kim Eunho Yang 139 10 0 04 Oct 2024
Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization Zichen Miao Zhengyuan Yang Kevin Lin Ze Wang Zicheng Liu Lijuan Wang Qiang Qiu 97 6 0 04 Oct 2024
CaLMFlow: Volterra Flow Matching using Causal Language Models Shiyang Zhang Daniel Levine Ivan Vrkic Marco Francesco Bressana David Zhang S. Rizvi Yangtian Zhang E. Zappala David van Dijk 49 1 0 03 Oct 2024
Eliminating Oversaturation and Artifacts of High Guidance Scales in Diffusion Models Seyedmorteza Sadat Otmar Hilliges Romann M. Weber DiffM 58 13 0 03 Oct 2024
Loong: Generating Minute-level Long Videos with Autoregressive Language Models Yuqing Wang Tianwei Xiong Daquan Zhou Zhijie Lin Yang Zhao Bingyi Kang Jiashi Feng Xihui Liu VGen 161 35 0 03 Oct 2024