Title
Implicit and Explicit Language Guidance for Diffusion-based Visual Perception Hefeng Wang Jiale Cao Jin Xie Aiping Yang Yanwei Pang VLM DiffM 50 2 0 11 Apr 2024
DreamView: Injecting View-specific Text Guidance into Text-to-3D Generation Junkai Yan Yipeng Gao Q. Yang Xihan Wei Xuansong Xie Ancong Wu Wei-Shi Zheng 40 1 0 09 Apr 2024
MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators Shenghai Yuan Jinfa Huang Yujun Shi Yongqi Xu Ruijie Zhu Bin Lin Xinhua Cheng Li-xin Yuan Jiebo Luo VGen 81 34 0 07 Apr 2024
SDFR: Synthetic Data for Face Recognition Competition Hatef Otroshi-Shahreza Christophe Ecabert Anjith George A. Unnervik S´ebastien Marcel ... R. Vera-Rodríguez Gianpaolo Perelli G. Orrú G. L. Marcialis Julian Fierrez 43 19 0 06 Apr 2024
On the Surprising Efficacy of Distillation as an Alternative to Pre-Training Small Models Sean Farhat Deming Chen 42 0 0 04 Apr 2024
LeGrad: An Explainability Method for Vision Transformers via Feature Formation Sensitivity Walid Bousselham Angie Boggust Sofian Chaybouti Hendrik Strobelt Hilde Kuehne 96 10 0 04 Apr 2024
VLRM: Vision-Language Models act as Reward Models for Image Captioning Maksim Dzabraev Alexander Kunitsyn Andrei Ivaniuta VLM MLLM 31 3 0 02 Apr 2024
DPMesh: Exploiting Diffusion Prior for Occluded Human Mesh Recovery Yixuan Zhu Ao Li Yansong Tang Wenliang Zhao Jie Zhou Jiwen Lu 44 2 0 01 Apr 2024
Few-shot point cloud reconstruction and denoising via learned Guassian splats renderings and fine-tuned diffusion features Pietro Bonazzi Marie-Julie Rakatosaona Marco Cannici Federico Tombari Davide Scaramuzza 29 0 0 01 Apr 2024
PosterLlama: Bridging Design Ability of Langauge Model to Contents-Aware Layout Generation Jaejung Seol Seojun Kim Jaejun Yoo 3DV VLM 42 7 0 01 Apr 2024
DiSR-NeRF: Diffusion-Guided View-Consistent Super-Resolution NeRF Jie Long Lee Chen Li Gim Hee Lee 34 6 0 01 Apr 2024
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models Barbara Toniella Corradini Mustafa Shukor Paul Couairon Guillaume Couairon Franco Scarselli Matthieu Cord DiffM VLM 45 4 0 29 Mar 2024
MIST: Mitigating Intersectional Bias with Disentangled Cross-Attention Editing in Text-to-Image Diffusion Models Hidir Yesiltepe Kiymet Akdemir Pinar Yanardag 29 3 0 28 Mar 2024
Automated Black-box Prompt Engineering for Personalized Text-to-Image Generation Yutong He Alexander Robey Naoki Murata Yiding Jiang J. Williams George Pappas Hamed Hassani Yuki Mitsufuji Ruslan Salakhutdinov J. Zico Kolter DiffM 104 4 0 28 Mar 2024
VP3D: Unleashing 2D Visual Prompt for Text-to-3D Generation Yang Chen Yingwei Pan Haibo Yang Ting Yao Tao Mei DiffM 42 18 0 25 Mar 2024
Invertible Diffusion Models for Compressed Sensing Bin Chen Zhenyu Zhang Weiqi Li Chen Zhao Jiwen Yu Shijie Zhao Jie Chen Jian Zhang DiffM 57 5 0 25 Mar 2024
MatchSeg: Towards Better Segmentation via Reference Image Matching Ruiqiang Xiao Jiayu Huo Haotian Zheng Yang Liu Sebastien Ourselin Rachel Sparks VLM MedIm 39 1 0 23 Mar 2024
Controlled Training Data Generation with Diffusion Models Teresa Yeo Andrei Atanov Harold Benoit Aleksandr Alekseev Ruchira Ray Pooya Esmaeil Akhoondi Amir Zamir 47 4 0 22 Mar 2024
StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text Roberto Henschel Levon Khachatryan Daniil Hayrapetyan Hayk Poghosyan Vahram Tadevosyan Zhangyang Wang Shant Navasardyan Humphrey Shi DiffM VGen 101 78 0 21 Mar 2024
Just Shift It: Test-Time Prototype Shifting for Zero-Shot Generalization with Vision-Language Models Elaine Sui Xiaohan Wang Serena Yeung-Levy VLM 30 5 0 19 Mar 2024
Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images Chaoqin Huang Aofan Jiang Jinghao Feng Ya Zhang Xinchao Wang Yanfeng Wang MedIm 45 25 0 19 Mar 2024
DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset Alexander Khazatsky Karl Pertsch Suraj Nair Ashwin Balakrishna Sudeep Dasari ... Thomas Kollar Sergey Levine Chelsea Finn Sergey Levine Chelsea Finn 61 182 0 19 Mar 2024
DreamMotion: Space-Time Self-Similar Score Distillation for Zero-Shot Video Editing Hyeonho Jeong Jinho Chang Geon Yeong Park Jong Chul Ye DiffM VGen 31 13 0 18 Mar 2024
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images Ruyi Xu Yuan Yao Zonghao Guo Junbo Cui Zanlin Ni Chunjiang Ge Tat-Seng Chua Zhiyuan Liu Maosong Sun Gao Huang VLM MLLM 37 104 0 18 Mar 2024
CasSR: Activating Image Power for Real-World Image Super-Resolution Haolan Chen Jinhua Hao Kai Zhao Kun Yuan Ming Sun Chao Zhou Wei Hu 34 5 0 18 Mar 2024
Fast Personalized Text-to-Image Syntheses With Attention Injection Yuxuan Zhang Yiren Song Jinpeng Yu Han Pan Zhongliang Jing DiffM 35 7 0 17 Mar 2024
ST-LDM: A Universal Framework for Text-Grounded Object Generation in Real Images Xiangtian Xue Jiasong Wu Youyong Kong L. Senhadji Huazhong Shu DiffM 43 1 0 15 Mar 2024
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting Zhiqi Li Yiming Chen Lingzhe Zhao Peidong Liu DiffM 3DGS 61 17 0 15 Mar 2024
Renovating Names in Open-Vocabulary Segmentation Benchmarks Haiwen Huang Songyou Peng Dan Zhang Andreas Geiger VLM 37 3 0 14 Mar 2024
A Decade's Battle on Dataset Bias: Are We There Yet? Zhuang Liu Kaiming He 44 28 0 13 Mar 2024
Stable-Makeup: When Real-World Makeup Transfer Meets Diffusion Model Yuxuan Zhang Lifu Wei Qing Zhang Yiren Song DiffM 42 12 0 12 Mar 2024
Towards Effective Usage of Human-Centric Priors in Diffusion Models for Text-based Human Image Generation Junyan Wang Zhenhong Sun Zhiyu Tan Xuanbai Chen Weihua Chen Hao Li Cheng Zhang Yang Song 43 9 0 08 Mar 2024
Face2Diffusion for Fast and Editable Face Personalization Kaede Shiohara Toshihiko Yamasaki DiffM 22 11 0 08 Mar 2024
Android in the Zoo: Chain-of-Action-Thought for GUI Agents Jiwen Zhang Jihao Wu Yihua Teng Minghui Liao Nuo Xu Xiao Xiao Zhongyu Wei Duyu Tang LLMAG LM&Ro 40 55 0 05 Mar 2024
Enhancing Vision-Language Pre-training with Rich Supervisions Yuan Gao Kunyu Shi Pengkai Zhu Edouard Belval Oren Nuriel Srikar Appalaraju Shabnam Ghadar Vijay Mahadevan Zhuowen Tu Stefano Soatto VLM CLIP 67 12 0 05 Mar 2024
Beyond Specialization: Assessing the Capabilities of MLLMs in Age and Gender Estimation Maksim Kuprashevich Grigorii Alekseenko Irina Tolstykh ELM 61 4 0 04 Mar 2024
PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis Zheng Lv Yuxiang Wei Wangmeng Zuo Kwan-Yee K. Wong 41 14 0 04 Mar 2024
HanDiffuser: Text-to-Image Generation With Realistic Hand Appearances Supreeth Narasimhaswamy Uttaran Bhattacharya Xiang Chen Ishita Dasgupta Saayan Mitra Minh Hoai DiffM 31 24 0 04 Mar 2024
SCott: Accelerating Diffusion Models with Stochastic Consistency Distillation Hongjian Liu Qingsong Xie Zhijie Deng Chen Chen Shixiang Tang Fueyang Fu Zheng-Jun Zha H. Lu Zheng-jun Zha 49 6 0 03 Mar 2024
Large Convolutional Model Tuning via Filter Subspace Wei Chen Zichen Miao Qiang Qiu 57 3 0 01 Mar 2024
A Novel Approach to Industrial Defect Generation through Blended Latent Diffusion Model with Online Adaptation Hanxi Li Zhengxun Zhang Hao Chen Lin Wu Bo Li Deyin Liu Mingwen Wang 52 2 0 29 Feb 2024
Trajectory Consistency Distillation: Improved Latent Consistency Distillation by Semi-Linear Consistency Function with Trajectory Mapping Jianbin Zheng Minghui Hu Zhongyi Fan Chaoyue Wang Changxing Ding Dacheng Tao Tat-Jen Cham 43 27 0 29 Feb 2024
Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model Hao-Ran Cheng Erjia Xiao Jindong Gu Le Yang Jinhao Duan Jize Zhang Jiahang Cao Kaidi Xu Renjing Xu 37 6 0 29 Feb 2024
Balancing Act: Distribution-Guided Debiasing in Diffusion Models Rishubh Parihar Abhijnya Bhat Abhipsa Basu Saswat Mallick Jogendra Nath Kundu R. V. Babu 58 18 0 28 Feb 2024
SDDGR: Stable Diffusion-based Deep Generative Replay for Class Incremental Object Detection Junsu Kim Hoseong Cho Jihyeon Kim Yihalem Yimolal Tiruneh Seungryul Baek DiffM 43 20 0 27 Feb 2024
On Distributed Larger-Than-Memory Subset Selection With Pairwise Submodular Functions Maximilian Böther Abraham Sebastian Pranjal Awasthi Ana Klimovic Srikumar Ramalingam 42 0 0 26 Feb 2024
Generative Models are Self-Watermarked: Declaring Model Authentication through Re-Generation Aditya Desu Xuanli He Qiongkai Xu Wei Lu WIGM 32 1 0 23 Feb 2024
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing Hyunjae Kim Seunghyun Yoon Trung Bui Handong Zhao Quan Tran Franck Dernoncourt Jaewoo Kang CLIP 27 2 0 23 Feb 2024
Corrective Machine Unlearning Shashwat Goel Ameya Prabhu Philip Torr Ponnurangam Kumaraguru Amartya Sanyal OnRL 42 14 0 21 Feb 2024
SInViG: A Self-Evolving Interactive Visual Agent for Human-Robot Interaction Jie Xu Hanbo Zhang Xinghang Li Huaping Liu Xuguang Lan Tao Kong LM&Ro 38 3 0 19 Feb 2024