Title
LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival Yuanxin Zhao Mi Zhang Bingnan Yang Zhan Zhang Jiaju Kang Jianya Gong 35 2 0 16 Mar 2024
Renovating Names in Open-Vocabulary Segmentation Benchmarks Haiwen Huang Songyou Peng Dan Zhang Andreas Geiger VLM 37 3 0 14 Mar 2024
Open-Vocabulary Object Detection with Meta Prompt Representation and Instance Contrastive Optimization Zhao Wang Aoxue Li Fengwei Zhou Zhenguo Li Qi Dou ObjD VLM 32 2 0 14 Mar 2024
Model Will Tell: Training Membership Inference for Diffusion Models Xiaomeng Fu Xi Wang Qiao Li Jin Liu Jiao Dai Jizhong Han 52 5 0 13 Mar 2024
Bridging Different Language Models and Generative Vision Models for Text-to-Image Generation Shihao Zhao Shaozhe Hao Bojia Zi Huaizhe Xu Kwan-Yee K. Wong DiffM VLM 68 8 0 12 Mar 2024
MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric Haokun Lin Haoli Bai Zhili Liu Lu Hou Muyi Sun Linqi Song Ying Wei Zhenan Sun CLIP VLM 63 14 0 12 Mar 2024
Synth $^2$ : Boosting Visual-Language Models with Synthetic Captions and Image Embeddings Sahand Sharifzadeh Christos Kaplanis Shreya Pathak D. Kumaran Anastasija Ilić Jovana Mitrović Charles Blundell Andrea Banino VLM 51 9 0 12 Mar 2024
Annotations on a Budget: Leveraging Geo-Data Similarity to Balance Model Performance and Annotation Cost Oana Ignat Longju Bai Joan Nwatu Rada Mihalcea 39 6 0 12 Mar 2024
Efficient Diffusion Model for Image Restoration by Residual Shifting Zongsheng Yue Jianyi Wang Chen Change Loy DiffM 32 36 0 12 Mar 2024
Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers Subhadeep Koley A. Bhunia Aneeshan Sain Pinaki Nath Chowdhury Tao Xiang Yi-Zhe Song DiffM 52 7 0 12 Mar 2024
SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with Auto-Generated Data Jialu Li Jaemin Cho Yi-Lin Sung Jaehong Yoon Mohit Bansal MoMe DiffM 47 8 0 11 Mar 2024
Data-Independent Operator: A Training-Free Artifact Representation Extractor for Generalizable Deepfake Detection Chuangchuang Tan Ping Liu Renshuai Tao Huan Liu Yao-Min Zhao Baoyuan Wu Yunchao Wei 54 9 0 11 Mar 2024
ELLA: Equip Diffusion Models with LLM for Enhanced Semantic Alignment Xiwei Hu Rui Wang Yixiao Fang Bin-Bin Fu Pei Cheng Gang Yu VLM 59 72 0 08 Mar 2024
Sora as an AGI World Model? A Complete Survey on Text-to-Video Generation Joseph Cho Fachrina Dewi Puspitasari Sheng Zheng Jingyao Zheng Lik-Hang Lee Tae-Ho Kim Choong Seon Hong Chaoning Zhang EGVM VGen 44 41 0 08 Mar 2024
Yi: Open Foundation Models by 01.AI 01. AI Alex Young 01.AI Alex Young Bei Chen Chao Li ... Yue Wang Yuxuan Cai Zhenyu Gu Zhiyuan Liu Zonghong Dai OSLM LRM 150 511 0 07 Mar 2024
CLIP the Bias: How Useful is Balancing Data in Multimodal Learning? Ibrahim M. Alabdulmohsin Xiao Wang Andreas Steiner Priya Goyal Alexander DÁmour Xiao-Qi Zhai 42 17 0 07 Mar 2024
Controllable Generation with Text-to-Image Diffusion Models: A Survey Pu Cao Feng Zhou Qing-Huang Song Lu Yang 74 37 0 07 Mar 2024
Stabilizing Policy Gradients for Stochastic Differential Equations via Consistency with Perturbation Process Xiangxin Zhou Liang Wang Yichi Zhou DiffM 37 4 0 07 Mar 2024
Towards Understanding Cross and Self-Attention in Stable Diffusion for Text-Guided Image Editing Bingyan Liu Chengyu Wang Tingfeng Cao Kui Jia Jun Huang DiffM 48 53 0 06 Mar 2024
Tuning-Free Noise Rectification for High Fidelity Image-to-Video Generation Weijie Li Litong Gong Yiran Zhu Fanda Fan Biao Wang Tiezheng Ge Bo Zheng VGen DiffM 49 2 0 05 Mar 2024
PromptKD: Unsupervised Prompt Distillation for Vision-Language Models Zheng Li Xiang Li Xinyi Fu Xing Zhang Weiqiang Wang Shuo Chen Jian Yang VLM 42 36 0 05 Mar 2024
Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters Weizhi Wang Khalil Mrini Linjie Yang Sateesh Kumar Yu Tian Xifeng Yan Heng Wang 46 16 0 05 Mar 2024
ImgTrojan: Jailbreaking Vision-Language Models with ONE Image Xijia Tao Shuai Zhong Lei Li Qi Liu Lingpeng Kong 39 25 0 05 Mar 2024
Differentially Private Representation Learning via Image Captioning Tom Sander Yaodong Yu Maziar Sanjabi Alain Durmus Yi Ma Kamalika Chaudhuri Chuan Guo 71 3 0 04 Mar 2024
A Generative Approach for Wikipedia-Scale Visual Entity Recognition Mathilde Caron Ahmet Iscen Alireza Fathi Cordelia Schmid 40 5 0 04 Mar 2024
ResAdapter: Domain Consistent Resolution Adapter for Diffusion Models Jiaxiang Cheng Pan Xie Xin Xia Jiashi Li Jie Wu Yuxi Ren Huixia Li Xuefeng Xiao Min Zheng Lean Fu 41 12 0 04 Mar 2024
Regeneration Based Training-free Attribution of Fake Images Generated by Text-to-Image Generative Models Meiling Li Zhenxing Qian Xinpeng Zhang 39 2 0 03 Mar 2024
Text-guided Explorable Image Super-resolution Kanchana Vaishnavi Gandikota Paramanand Chandramouli 48 7 0 02 Mar 2024
Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks Fakhraddin Alwajih El Moatez Billah Nagoudi Gagan Bhatia Abdelrahman Mohamed Muhammad Abdul-Mageed VLM LRM 35 11 0 01 Mar 2024
Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models Lei Li Yuqi Wang Runxin Xu Peiyi Wang Xiachong Feng Lingpeng Kong Qi Liu 37 51 0 01 Mar 2024
Unveiling Typographic Deceptions: Insights of the Typographic Vulnerability in Large Vision-Language Model Hao-Ran Cheng Erjia Xiao Jindong Gu Le Yang Jinhao Duan Jize Zhang Jiahang Cao Kaidi Xu Renjing Xu 37 6 0 29 Feb 2024
PANDAS: Prototype-based Novel Class Discovery and Detection Tyler L. Hayes César R. de Souza Namil Kim Jiwon Kim Riccardo Volpi Diane Larlus ObjD 43 2 0 27 Feb 2024
SDDGR: Stable Diffusion-based Deep Generative Replay for Class Incremental Object Detection Junsu Kim Hoseong Cho Jihyeon Kim Yihalem Yimolal Tiruneh Seungryul Baek DiffM 43 20 0 27 Feb 2024
Contextualized Diffusion Models for Text-Guided Image and Video Generation Ling Yang Zhilong Zhang Zhaochen Yu Jingwei Liu Minkai Xu Stefano Ermon Bin Cui 49 4 0 26 Feb 2024
BSPA: Exploring Black-box Stealthy Prompt Attacks against Image Generators Yu Tian Xiao Yang Yinpeng Dong Heming Yang Hang Su Jun Zhu AAML 42 4 0 23 Feb 2024
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing Hyunjae Kim Seunghyun Yoon Trung Bui Handong Zhao Quan Tran Franck Dernoncourt Jaewoo Kang CLIP 27 2 0 23 Feb 2024
CLoVe: Encoding Compositional Language in Contrastive Vision-Language Models Santiago Castro Amir Ziai Avneesh Saluja Zhuoning Yuan Rada Mihalcea MLLM CoGe VLM 36 5 0 22 Feb 2024
Towards Robust Instruction Tuning on Multimodal Large Language Models Wei Han Hui Chen Soujanya Poria MLLM 46 0 0 22 Feb 2024
ConVQG: Contrastive Visual Question Generation with Multimodal Guidance Li Mi Syrielle Montariol J. Castillo-Navarro Xianjie Dai Antoine Bosselut D. Tuia 38 4 0 20 Feb 2024
The Revolution of Multimodal Large Language Models: A Survey Davide Caffagni Federico Cocchi Luca Barsellotti Nicholas Moratelli Sara Sarto Lorenzo Baraldi Lorenzo Baraldi Marcella Cornia Rita Cucchiara LRM VLM 66 43 0 19 Feb 2024
ALLaVA: Harnessing GPT4V-Synthesized Data for Lite Vision-Language Models Guiming Hardy Chen Shunian Chen Ruifei Zhang Junying Chen Xiangbo Wu Zhiyi Zhang Zhihong Chen Jianquan Li Xiang Wan Benyou Wang VLM SyDa 41 129 0 18 Feb 2024
PaLM2-VAdapter: Progressively Aligned Language Model Makes a Strong Vision-language Adapter Junfei Xiao Zheng Xu Alan Yuille Shen Yan Boyu Wang 33 3 0 16 Feb 2024
Interpreting CLIP with Sparse Linear Concept Embeddings (SpLiCE) Usha Bhalla Alexander X. Oesterling Suraj Srinivas Flavio du Pin Calmon Himabindu Lakkaraju 46 36 0 16 Feb 2024
DreamMatcher: Appearance Matching Self-Attention for Semantically-Consistent Text-to-Image Personalization Jisu Nam Heesu Kim Dongjae Lee Siyoon Jin Seungryong Kim Seunggyu Chang DiffM 32 40 0 15 Feb 2024
OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM Yutao Hu Tian-Xin Li Quanfeng Lu Wenqi Shao Junjun He Yu Qiao Ping Luo ELM LM&MA 32 52 0 14 Feb 2024
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision Zhaoqing Wang Xiaobo Xia Ziye Chen Xiao He Yandong Guo Biwei Huang Tongliang Liu VLM 29 11 0 14 Feb 2024
Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models Siddharth Karamcheti Suraj Nair Ashwin Balakrishna Percy Liang Thomas Kollar Dorsa Sadigh MLLM VLM 59 101 0 12 Feb 2024
Examining Gender and Racial Bias in Large Vision-Language Models Using a Novel Dataset of Parallel Images Kathleen C. Fraser S. Kiritchenko 49 34 0 08 Feb 2024
SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models Chris Liu Renrui Zhang Longtian Qiu Siyuan Huang Weifeng Lin ... Hao Shao Pan Lu Hongsheng Li Yu Qiao Peng Gao MLLM 130 109 0 08 Feb 2024
CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion Shoubin Yu Jaehong Yoon Mohit Bansal 85 4 0 08 Feb 2024