Title
GVDIFF: Grounded Text-to-Video Generation with Diffusion Models Huanzhang Dou Ruixiang Li Wei Su Xi Li DiffM 44 1 0 02 Jul 2024
MIGC++: Advanced Multi-Instance Generation Controller for Image Synthesis Dewei Zhou Y. Li Fan Ma Zongxin Yang Yuqing Yang 101 11 0 02 Jul 2024
Chest-Diffusion: A Light-Weight Text-to-Image Model for Report-to-CXR Generation Peng Huang Xue Gao Lihong Huang Jing Jiao Xiaokang Li Yuanyuan Wang Yi Guo MedIm DiffM 33 9 0 30 Jun 2024
Diminishing Stereotype Bias in Image Generation Model using Reinforcemenlent Learning Feedback Xin Chen Virgile Foussereau EGVM 59 0 0 27 Jun 2024
LIPE: Learning Personalized Identity Prior for Non-rigid Image Editing Aoyang Liu Qingnan Fan Shuai Qin Hong Gu Yansong Tang DiffM 58 1 0 25 Jun 2024
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation Yuang Peng Yuxin Cui Haomiao Tang Zekun Qi Runpei Dong Jing Bai Chunrui Han Zheng Ge Xiangyu Zhang Shu-Tao Xia EGVM 83 31 0 24 Jun 2024
ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools Team GLM : Aohan Zeng Bin Xu Bowen Wang ... Zhaoyu Wang Zhen Yang Zhengxiao Du Zhenyu Hou Zihan Wang ALM 79 504 0 18 Jun 2024
ControlVAR: Exploring Controllable Visual Autoregressive Modeling Xiang Li Kai Qiu Hao Chen Jason Kuen Zhe-nan Lin Rita Singh Bhiksha Raj DiffM 43 21 0 14 Jun 2024
Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation Yufan Zhou Ruiyi Zhang Kaizhi Zheng Nanxuan Zhao Jiuxiang Gu Zichao Wang Xin Eric Wang Tong Sun DiffM 35 2 0 13 Jun 2024
A Large-scale Universal Evaluation Benchmark For Face Forgery Detection Yijun Bei Hengrui Lou Jinsong Geng Erteng Liu Lechao Cheng Jie Song Mingli Song Zunlei Feng CVBM 51 0 0 13 Jun 2024
What If We Recaption Billions of Web Images with LLaMA-3? Xianhang Li Haoqin Tu Mude Hui Zeyu Wang Bingchen Zhao ... Jieru Mei Qing Liu Huangjie Zheng Yuyin Zhou Cihang Xie VLM MLLM 44 36 0 12 Jun 2024
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment Bing Han Long Zhou Shujie Liu Sanyuan Chen Lingwei Meng Yanming Qian Yanqing Liu Sheng Zhao Jinyu Li Furu Wei 49 15 0 12 Jun 2024
OmniControlNet: Dual-stage Integration for Conditional Image Generation Yilin Wang Haiyang Xu Xiang Zhang Zeyuan Chen Zhizhou Sha Zirui Wang Zhuowen Tu VLM 34 15 0 09 Jun 2024
AttnDreamBooth: Towards Text-Aligned Personalized Text-to-Image Generation Lianyu Pang Jian Yin Baoquan Zhao Feize Wu Fu Lee Wang Qing Li Xudong Mao DiffM 49 1 0 07 Jun 2024
Lumina-Next: Making Lumina-T2X Stronger and Faster with Next-DiT Le Zhuo Ruoyi Du Han Xiao Yangguang Li Dongyang Liu ... Wanli Ouyang Ziwei Liu Ping Luo Hongsheng Li Peng Gao 52 45 0 05 Jun 2024
Slight Corruption in Pre-training Data Makes Better Diffusion Models Hao Chen Yujin Han Diganta Misra Xiang Li Kai Hu Difan Zou Masashi Sugiyama Jindong Wang Bhiksha Raj DiffM 47 5 0 30 May 2024
TIE: Revolutionizing Text-based Image Editing for Complex-Prompt Following and High-Fidelity Editing Xinyu Zhang Mengxue Kang Fei Wei Shuang Xu Yuhe Liu Lin Ma MLLM DiffM 34 2 0 27 May 2024
ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance Jiannan Huang Jun Hao Liew Hanshu Yan Yuyang Yin Yao Zhao Yunchao Wei Yunchao Wei DiffM 90 7 0 27 May 2024
Ensembling Diffusion Models via Adaptive Feature Aggregation Cong Wang Kuan Tian Yonghang Guan Jun Zhang Zhiwei Jiang Fei Shen Xiao Han 44 5 0 27 May 2024
ExactDreamer: High-Fidelity Text-to-3D Content Creation via Exact Score Matching Yumin Zhang Xingyu Miao Haoran Duan Bo Wei Tejal Shah Yang Long R. Ranjan 35 3 0 24 May 2024
DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception Run Luo Yunshui Li Longze Chen Wanwei He Ting-En Lin ... Zikai Song Xiaobo Xia Tongliang Liu Min Yang Binyuan Hui VLM DiffM 75 16 0 24 May 2024
Learning Multi-dimensional Human Preference for Text-to-Image Generation Sixian Zhang Bohan Wang Junqiang Wu Yan Li Tingting Gao Di Zhang Zhongyuan Wang EGVM 56 30 0 23 May 2024
Safety Alignment for Vision Language Models Zhendong Liu Yuanbi Nie Yingshui Tan Xiangyu Yue Qiushi Cui Chongjun Wang Xiaoyong Zhu Bo Zheng VLM MLLM 98 7 0 22 May 2024
An Empirical Study and Analysis of Text-to-Image Generation Using Large Language Model-Powered Textual Representation Zhiyu Tan Mengping Yang Luozheng Qin Hao Yang Ye Qian Qiang-feng Zhou Cheng Zhang Hao Li 69 3 0 21 May 2024
Compositional Text-to-Image Generation with Dense Blob Representations Weili Nie Sifei Liu Morteza Mardani Chao Liu Benjamin Eckart Arash Vahdat DiffM 88 17 0 14 May 2024
Learning to Solve Geometry Problems via Simulating Human Dual-Reasoning Process Tong Xiao Jia-Yin Liu Zhenya Huang Jinze Wu Jing Sha Shijin Wang Enhong Chen AI4CE 42 3 0 10 May 2024
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond Zheng Zhu Xiaofeng Wang Wangbo Zhao Chen Min Nianchen Deng ... Dawei Zhao Liang Xiao Jian-jun Zhao Jiwen Lu Guan Huang VGen LM&Ro 87 38 0 06 May 2024
Auto-Encoding Morph-Tokens for Multimodal LLM Kaihang Pan Siliang Tang Juncheng Li Zhaoyu Fan Wei Chow Shuicheng Yan Tat-Seng Chua Yueting Zhuang Hanwang Zhang MLLM 35 18 0 03 May 2024
Defect Image Sample Generation With Diffusion Prior for Steel Surface Defect Recognition Yichun Tai Kun Yang Tao Peng Zhenzhen Huang Zhijiang Zhang 37 4 0 03 May 2024
Harnessing Federated Generative Learning for Green and Sustainable Internet of Things Yuanhang Qi M. Hossain 47 7 0 30 Apr 2024
DM-Align: Leveraging the Power of Natural Language Instructions to Make Changes to Images Maria Mihaela Truşcǎ Tinne Tuytelaars Marie-Francine Moens DiffM 54 1 0 27 Apr 2024
An Analysis of Recent Advances in Deepfake Image Detection in an Evolving Threat Landscape Sifat Muhammad Abdullah Aravind Cheruvu Shravya Kanchi Taejoong Chung Peng Gao Murtuza Jadliwala Bimal Viswanath AAML 29 11 0 24 Apr 2024
MYCloth: Towards Intelligent and Interactive Online T-Shirt Customization based on User's Preference Yexin Liu Lin Wang 38 4 0 24 Apr 2024
Gorgeous: Create Your Desired Character Facial Makeup from Any Ideas Jia Wei Sii Chee Seng Chan DiffM 56 0 0 22 Apr 2024
Iteratively Prompting Multimodal LLMs to Reproduce Natural and AI-Generated Images Ali Naseh Katherine Thai Mohit Iyyer Amir Houmansadr 47 6 0 21 Apr 2024
Sketch-guided Image Inpainting with Partial Discrete Diffusion Process Nakul Sharma Aditay Tripathi Anirban Chakraborty Anand Mishra DiffM 41 3 0 18 Apr 2024
LD-Pruner: Efficient Pruning of Latent Diffusion Models using Task-Agnostic Insights Thibault Castells Hyoung-Kyu Song Bo-Kyeong Kim Shinkook Choi 34 21 0 18 Apr 2024
ANCHOR: LLM-driven News Subject Conditioning for Text-to-Image Synthesis Aashish Anantha Ramakrishnan Sharon X. Huang Dongwon Lee 40 0 0 15 Apr 2024
Navigating the Landscape of Large Language Models: A Comprehensive Review and Analysis of Paradigms and Fine-Tuning Strategies Benjue Weng LM&MA 46 8 0 13 Apr 2024
SwapAnything: Enabling Arbitrary Object Swapping in Personalized Visual Editing Jing Gu Yilin Wang Nanxuan Zhao Wei Xiong Qing Liu Zhifei Zhang He Zhang Jianming Zhang HyunJoon Jung Xin Eric Wang DiffM 32 8 0 08 Apr 2024
UniFL: Improve Stable Diffusion via Unified Feedback Learning Jiacheng Zhang Jie Wu Yuxi Ren Xin Xia Huafeng Kuang ... Jiashi Li Xuefeng Xiao Min Zheng Lean Fu Guanbin Li 45 5 0 08 Apr 2024
Xiwu: A Basis Flexible and Learnable LLM for High Energy Physics Zhengde Zhang Yiyu Zhang Haodong Yao Jianwen Luo Rui Zhao ... Ke Li Lina Zhao Jun Cao Fazhi Qi Changzheng Yuan 40 2 0 08 Apr 2024
InitNO: Boosting Text-to-Image Diffusion Models via Initial Noise Optimization Xiefan Guo Jinlin Liu Miaomiao Cui Jiankai Li Hongyu Yang Di Huang 39 25 0 06 Apr 2024
Diffusion-RWKV: Scaling RWKV-Like Architectures for Diffusion Models Zhengcong Fei Mingyuan Fan Changqian Yu Debang Li Junshi Huang 40 24 0 06 Apr 2024
AIGIQA-20K: A Large Database for AI-Generated Image Quality Assessment Chunyi Li Tengchuan Kou Yixuan Gao Yuhang Cao Wei Sun ... Weixia Zhang Haoning Wu Xiaohong Liu Xiongkuo Min Guangtao Zhai 41 17 0 04 Apr 2024
Locate, Assign, Refine: Taming Customized Promptable Image Inpainting Yulin Pan Chaojie Mao Zeyinzi Jiang Zhen Han Jingfeng Zhang Xiangteng He DiffM 44 2 0 28 Mar 2024
GENESIS-RL: GEnerating Natural Edge-cases with Systematic Integration of Safety considerations and Reinforcement Learning Hsin-Jung Yang Joe Beck Md Zahid Hasan Ekin Beyazit Subhadeep Chakraborty Tichakorn Wongpiromsarn Soumik Sarkar 27 0 0 27 Mar 2024
A Survey on Large Language Models from Concept to Implementation Chen Wang Jin Zhao Jiaqi Gong LLMAG LM&MA 45 3 0 27 Mar 2024
Bringing Textual Prompt to AI-Generated Image Quality Assessment Bowen Qu Haohui Li Wei-Nan Gao EGVM 29 5 0 27 Mar 2024
Can Language Beat Numerical Regression? Language-Based Multimodal Trajectory Prediction Inhwan Bae Junoh Lee Hae-Gon Jeon 36 15 0 27 Mar 2024