Title
D-Feat Occlusions: Diffusion Features for Robustness to Partial Visual Occlusions in Object Recognition Rupayan Mallick Sibo Dong Nataniel Ruiz Sarah Adel Bargal DiffM 49 0 0 08 Apr 2025
HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance Jiazi Bu Pengyang Ling Yujie Zhou Pan Zhang Tong Wu Xiaoyi Dong Yuhang Zang Yuhang Cao Dahua Lin Jiaqi Wang 23 0 0 08 Apr 2025
SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models Justus Westerhoff Erblina Purellku Jakob Hackstein Jonas Loos Leo Pinetzki Lorenz Hufe AAML 28 0 0 07 Apr 2025
Your Image Generator Is Your New Private Dataset Nicolo Resmini Eugenio Lomurno Cristian Sbrolli Matteo Matteucci 31 0 0 06 Apr 2025
Deconstructing Bias: A Multifaceted Framework for Diagnosing Cultural and Compositional Inequities in Text-to-Image Generative Models Muna Numan Said Aarib Zaidi Rabia Usman Sonia Okon Praneeth Medepalli Kevin Zhu Vasu Sharma Sean O'Brien 24 0 0 05 Apr 2025
Large (Vision) Language Models are Unsupervised In-Context Learners Artyom Gadetsky Andrei Atanov Yulun Jiang Zhitong Gao Ghazal Hosseini Mighan Amir Zamir Maria Brbić VLM MLLM LRM 69 0 0 03 Apr 2025
Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities Raman Dutt Harleen Hanspal Guoxuan Xia Petru-Daniel Tudosiu Alexander Black Yongxin Yang Jingyu Sun Sarah Parisot MoE 43 0 0 28 Mar 2025
SyncSDE: A Probabilistic Framework for Diffusion Synchronization Hyunjun Lee Hyunsoo Lee Sookwan Han DiffM 51 0 0 27 Mar 2025
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation Size Wu Feiyu Xiong Lumin Xu Sheng Jin Zhonghua Wu Qingyi Tao Wentao Liu Wei Li Chen Change Loy VGen 177 2 0 27 Mar 2025
3DGen-Bench: Comprehensive Benchmark Suite for 3D Generative Models Yuyao Zhang Mengchen Zhang Tong Wu Tengfei Wang Gordon Wetzstein Dahua Lin Ziwei Liu ELM 79 0 0 27 Mar 2025
ICE: Intrinsic Concept Extraction from a Single Image via Diffusion Models Fernando Julio Cendra Kai Han VLM 58 0 0 25 Mar 2025
Diffusion-4K: Ultra-High-Resolution Image Synthesis with Latent Diffusion Models Jinjin Zhang Qiuyu Huang Junjie Liu Xiefan Guo Di Huang 62 2 0 24 Mar 2025
Progressive Prompt Detailing for Improved Alignment in Text-to-Image Generative Models Ketan Suhaas Saichandran Xavier Thomas Prakhar Kaushik Deepti Ghadiyaram DiffM 78 0 0 22 Mar 2025
UniCon: Unidirectional Information Flow for Effective Control of Large-Scale Diffusion Models Fanghua Yu Jinjin Gu Jinfan Hu Zheyuan Li Chao Dong DiffM 55 0 0 21 Mar 2025
Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding Jinlong Li Cristiano Saltori Fabio Poiesi N. Sebe 192 0 0 20 Mar 2025
Language-based Image Colorization: A Benchmark and Beyond Yong Li Shuai Yang Jiaying Liu DiffM VLM 51 0 0 19 Mar 2025
How to Train Your Dragon: Automatic Diffusion-Based Rigging for Characters with Diverse Topologies Zeqi Gu Difan Liu Timothy Langlois Matthew Fisher Abe Davis DiffM 3DH 62 0 0 19 Mar 2025
CRCE: Coreference-Retention Concept Erasure in Text-to-Image Diffusion Models Yuyang Xue Edward Moroshko Feng Chen Jingyu Sun Steven McDonagh Sotirios A. Tsaftaris 56 1 0 18 Mar 2025
DPImageBench: A Unified Benchmark for Differentially Private Image Synthesis Chen Gong Kecen Li Zinan Lin Tianhao Wang 61 3 0 18 Mar 2025
RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment Chao Wang Giulio Franzese A. Finamore Pietro Michiardi 66 0 0 18 Mar 2025
Concept-as-Tree: Synthetic Data is All You Need for VLM Personalization Ruichuan An Kai Zeng Ming Lu Sihan Yang Renrui Zhang Huitong Ji Qizhe Zhang Y. Luo Hao Liang Wentao Zhang 68 0 0 17 Mar 2025
Segment Any-Quality Images with Generative Latent Space Enhancement Guangqian Guo Yoong Guo Xuehui Yu Wenbo Li Yaoxing Wang Shan Gao VLM 77 0 0 16 Mar 2025
TLAC: Two-stage LMM Augmented CLIP for Zero-Shot Classification Ans Munir Faisal Z. Qureshi M. H. Khan Mohsen Ali VLM 70 0 0 15 Mar 2025
Adding Additional Control to One-Step Diffusion with Joint Distribution Matching Yihong Luo Tianyang Hu Yifan Song Jiacheng Sun Zechao Li Jing Tang DiffM 81 1 0 13 Mar 2025
Learning Few-Step Diffusion Models by Trajectory Distribution Matching Yihong Luo Tianyang Hu Jiacheng Sun Yujun Cai Jing Tang DiffM 88 1 0 13 Mar 2025
Exploring Position Encoding in Diffusion U-Net for Training-free High-resolution Image Generation Feng Zhou Pu Cao Yiyang Ma Lu Yang Jianqin Yin DiffM 51 0 0 12 Mar 2025
RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling Itay Chachy Guy Yariv Sagie Benaim 171 0 0 12 Mar 2025
PromptMap: An Alternative Interaction Style for AI-Based Image Generation Krzysztof Adamkiewicz Paweł W. Woźniak Julia Dominiak Andrzej Romanowski Jakob Karolus Stanislav Frolov 67 1 0 12 Mar 2025
FaceID-6M: A Large-Scale, Open-Source FaceID Customization Dataset Shuhe Wang Xiaoya Li Jiwei Li G. Wang Xiaofei Sun ... Han Qiu Mo Yu Shengjie Shen Tianwei Zhang Eduard H. Hovy VLM 63 0 0 10 Mar 2025
Recovering Partially Corrupted Major Objects through Tri-modality Based Image Completion Yongle Zhang Yimin Liu Qiang Wu DiffM 38 0 0 10 Mar 2025
A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning Xin Wen Bingchen Zhao Yilun Chen Jiangmiao Pang Xiaojuan Qi LM&Ro 46 0 0 10 Mar 2025
RayFlow: Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories Huiyang Shao Xin Xia Yanting Yang Yuxi Ren Xing Wang Xuefeng Xiao 56 1 0 10 Mar 2025
Conceptrol: Concept Control of Zero-shot Personalized Image Generation Qiyuan He Angela Yao DiffM 41 0 0 09 Mar 2025
DynamicID: Zero-Shot Multi-ID Image Personalization with Flexible Facial Editability Xirui Hu Jiahao Wang Hao Chen Weizhan Zhang Benqi Wang Yangfu Li Haishun Nan DiffM 67 0 0 09 Mar 2025
DropletVideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation Runze Zhang Guoguang Du Xiaochuan Li Qi Jia Liang Jin ... Zhenhua Guo Yaqian Zhao Xiaoli Gong Rengang Li Baoyu Fan VGen 75 0 0 08 Mar 2025
GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation Ye Tao Jiawei Zhang Yahao Shi Dongqing Zou Bin Zhou 3DGS 57 0 0 08 Mar 2025
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction Huang Huang Fangchen Liu Letian Fu Tingfan Wu Mustafa Mukadam Jitendra Malik Ken Goldberg Pieter Abbeel LM&Ro VLM 85 6 0 05 Mar 2025
RectifiedHR: Enable Efficient High-Resolution Image Generation via Energy Rectification Zhen Yang Guibao Shen Liang Hou Mushui Liu Luozhou Wang Xin Tao Pengfei Wan Di Zhang Ying-cong Chen DiffM 79 0 0 04 Mar 2025
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation Jiantao Lin Xin Yang Meixi Chen Yingjie Xu D. Yan Leyi Wu Xinli Xu Lie Xu Shunsi Zhang Ying-Cong Chen 60 1 0 03 Mar 2025
WeGen: A Unified Model for Interactive Multimodal Generation as We Chat Zhipeng Huang Shaobin Zhuang Canmiao Fu Binxin Yang Ying Zhang Chong Sun Zhizheng Zhang Yali Wang Chen Li Zheng-Jun Zha DiffM 69 2 0 03 Mar 2025
Morpheus: Text-Driven 3D Gaussian Splat Shape and Color Stylization Jamie Wynn Z. Qureshi Jakub Powierza Jamie Watson Mohamed Sayed 3DGS DiffM 76 0 0 03 Mar 2025
Zero-Shot Head Swapping in Real-World Scenarios S. Jeong Taewoong Kang Hyojin Jang Jaegul Choo 39 0 0 02 Mar 2025
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning Shashank Gupta Chaitanya Ahuja Tsung-Yu Lin Sreya Dutta Roy Harrie Oosterhuis Maarten de Rijke Satya Narayan Shukla 46 1 0 02 Mar 2025
RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete Yuheng Ji Huajie Tan Jiayu Shi Xiaoshuai Hao Yuan Zhang ... Huaihai Lyu Xiaolong Zheng Jiaming Liu Zhongyuan Wang Shanghang Zhang 102 8 0 28 Feb 2025
Raccoon: Multi-stage Diffusion Training with Coarse-to-Fine Curating Videos Zhiyu Tan Junyan Wang Hao Yang Luozheng Qin Hesen Chen Qiang-feng Zhou Hao Li VGen 69 0 0 28 Feb 2025
T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting Yifei Qian Zhongliang Guo Bowen Deng Chun Tong Lei Shuai Zhao Chun Pong Lau Xiaopeng Hong Michael P. Pound DiffM 59 0 0 28 Feb 2025
CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation Reza Abbasi Ali Nazari Aminreza Sefid Mohammadali Banayeeanzade M. Rohban M. Baghshah VLM 89 1 0 27 Feb 2025
Identity-preserving Distillation Sampling by Fixed-Point Iterator SeonHwa Kim Jiwon Kim S. Park Donghoon Ahn Jiwon Kang Seungryong Kim Kyong Hwan Jin Eunju Cha 46 0 0 27 Feb 2025
M2-omni: Advancing Omni-MLLM for Comprehensive Modality Support with Competitive Performance Qingpei Guo Kaiyou Song Zipeng Feng Ziping Ma Qinglong Zhang ... Yunxiao Sun Tai-WeiChang Jingdong Chen Ming Yang Jun Zhou MLLM VLM 90 3 0 26 Feb 2025
UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting Haoyuan Li Yanpeng Zhou Tao Tang Jifei Song Yihan Zeng Michael C. Kampffmeyer Hang Xu Xiaodan Liang 3DGS 67 1 0 25 Feb 2025