Title
Accountable Textual-Visual Chat Learns to Reject Human Instructions in Image Re-creation Zhiwei Zhang Yuliang Liu MLLM 27 0 0 10 Mar 2023
Object-Aware Distillation Pyramid for Open-Vocabulary Object Detection Luting Wang Yi Liu Penghui Du Zihan Ding Yue Liao Qiaosong Qi Biaolong Chen Si Liu ObjD VLM 70 62 0 10 Mar 2023
Tag2Text: Guiding Vision-Language Model via Image Tagging Xinyu Huang Youcai Zhang Jinyu Ma Weiwei Tian Rui Feng Yuejie Zhang Yaqian Li Yandong Guo Lei Zhang CLIP MLLM VLM 3DV 66 74 0 10 Mar 2023
Natural scene reconstruction from fMRI signals using generative latent diffusion Furkan Ozcelik Rufin VanRullen DiffM 102 78 0 09 Mar 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 223 320 0 08 Mar 2023
A Prompt Log Analysis of Text-to-Image Generation Systems Yutong Xie Zhaoying Pan Jing Ma Jie Luo Qiaozhu Mei DiffM 125 40 0 08 Mar 2023
Lformer: Text-to-Image Generation with L-shape Block Parallel Decoding Jiacheng Li Longhui Wei Zongyuan Zhan Xinfu He Siliang Tang Qi Tian Yueting Zhuang 24 4 0 07 Mar 2023
A Pathway Towards Responsible AI Generated Content Chen Chen Jie Fu Lingjuan Lyu 49 71 0 02 Mar 2023
Visual Atoms: Pre-training Vision Transformers with Sinusoidal Waves Sora Takashima Ryo Hayamizu Nakamasa Inoue Hirokatsu Kataoka Rio Yokota 68 18 0 02 Mar 2023
X&Fuse: Fusing Visual Information in Text-to-Image Generation Yuval Kirstain Omer Levy Adam Polyak DiffM 19 5 0 02 Mar 2023
Internet Explorer: Targeted Representation Learning on the Open Web Alexander C. Li Ellis L Brown Alexei A. Efros Deepak Pathak VLM 24 24 0 27 Feb 2023
Language Is Not All You Need: Aligning Perception with Language Models Shaohan Huang Li Dong Wenhui Wang Y. Hao Saksham Singhal ... Johan Bjorck Vishrav Chaudhary Subhojit Som Xia Song Furu Wei VLM LRM MLLM 32 535 0 27 Feb 2023
The ROOTS Search Tool: Data Transparency for LLMs Aleksandra Piktus Christopher Akiki Paulo Villegas Hugo Laurenccon Gérard Dupont A. Luccioni Yacine Jernite Anna Rogers VLM 41 29 0 27 Feb 2023
The Role of Pre-training Data in Transfer Learning R. Entezari Mitchell Wortsman O. Saukh M. Shariatnia Hanie Sedghi Ludwig Schmidt 46 20 0 27 Feb 2023
Agile Modeling: From Concept to Classifier in Minutes Otilia Stretcu Edward Vendrow Kenji Hata Krishnamurthy Viswanathan V. Ferrari ... Chun-Ta Lu Javier A Rey Giulia DeSalvo Ranjay Krishna Ariel Fuxman HAI 40 14 0 25 Feb 2023
Language-Driven Representation Learning for Robotics Siddharth Karamcheti Suraj Nair Annie S. Chen Thomas Kollar Chelsea Finn Dorsa Sadigh Percy Liang LM&Ro SSL 47 145 0 24 Feb 2023
Aligning Text-to-Image Models using Human Feedback Kimin Lee Hao Liu Moonkyung Ryu Olivia Watkins Yuqing Du Craig Boutilier Pieter Abbeel Mohammad Ghavamzadeh S. Gu EGVM 53 255 0 23 Feb 2023
Teaching CLIP to Count to Ten Roni Paiss Ariel Ephrat Omer Tov Shiran Zada Inbar Mosseri Michal Irani Tali Dekel VLM CLIP 34 92 0 23 Feb 2023
Region-Aware Diffusion for Zero-shot Text-driven Image Editing Nisha Huang Fan Tang Weiming Dong Tong-Yee Lee Changsheng Xu DiffM 35 23 0 23 Feb 2023
Towards Universal Fake Image Detectors that Generalize Across Generative Models Utkarsh Ojha Yuheng Li Yong Jae Lee 27 210 0 20 Feb 2023
Poisoning Web-Scale Training Datasets is Practical Nicholas Carlini Matthew Jagielski Christopher A. Choquette-Choo Daniel Paleka Will Pearce Hyrum S. Anderson Andreas Terzis Kurt Thomas Florian Tramèr SILM 31 182 0 20 Feb 2023
Large-scale Multi-Modal Pre-trained Models: A Comprehensive Survey Tianlin Li Guangyao Chen Guangwu Qian Pengcheng Gao Xiaoyong Wei Yaowei Wang Yonghong Tian Wen Gao AI4CE VLM 33 204 0 20 Feb 2023
Few-shot Multimodal Multitask Multilingual Learning Aman Chadha Vinija Jain 53 0 0 19 Feb 2023
Combining Generative Artificial Intelligence (AI) and the Internet: Heading towards Evolution or Degradation? Gonzalo Martínez Ruiz de Arcaute Lauren Watson Pedro Reviriego José Alberto Hernández Marc Juárez Rik Sarkar 25 40 0 17 Feb 2023
LayoutDiffuse: Adapting Foundational Diffusion Models for Layout-to-Image Generation Jiaxin Cheng Xiao Liang Xingjian Shi Tong He Tianjun Xiao Mu Li DiffM 17 66 0 16 Feb 2023
System identification of neural systems: If we got it right, would we know? Yena Han T. Poggio Brian Cheung 34 10 0 13 Feb 2023
Paparazzi: A Deep Dive into the Capabilities of Language and Vision Models for Grounding Viewpoint Descriptions Henrik Voigt J. Hombeck M. Meuschke K. Lawonn Sina Zarrieß VLM 33 1 0 13 Feb 2023
A Simple Zero-shot Prompt Weighting Technique to Improve Prompt Ensembling in Text-Image Models J. Allingham Jie Jessie Ren Michael W. Dusenberry Xiuye Gu Huayu Chen Dustin Tran J. Liu Balaji Lakshminarayanan LLMAG VLM 35 33 0 13 Feb 2023
Offsite-Tuning: Transfer Learning without Full Model Guangxuan Xiao Ji Lin Song Han 43 67 0 09 Feb 2023
UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models Wenliang Zhao Lujia Bai Yongming Rao Jie Zhou Jiwen Lu DiffM 27 199 0 09 Feb 2023
Adversarial Example Does Good: Preventing Painting Imitation from Diffusion Models via Adversarial Examples Chumeng Liang Xiaoyu Wu Yang Hua Jiaru Zhang Yiming Xue Tao Song Zhengui Xue Ruhui Ma Haibing Guan DiffM WIGM 24 117 0 09 Feb 2023
Ethical Considerations for Responsible Data Curation Jerone T. A. Andrews Dora Zhao William Thong Apostolos Modas Orestis Papakyriakopoulos Alice Xiang 17 19 0 07 Feb 2023
SimCon Loss with Multiple Views for Text Supervised Semantic Segmentation Yash J. Patel Yusheng Xie Yi Zhu Srikar Appalaraju R. Manmatha 35 4 0 07 Feb 2023
Structure and Content-Guided Video Synthesis with Diffusion Models Patrick Esser Johnathan Chiu Parmida Atighehchian Jonathan Granskog Anastasis Germanidis DiffM VGen 79 509 0 06 Feb 2023
Eliminating Contextual Prior Bias for Semantic Image Editing via Dual-Cycle Diffusion Zuopeng Yang Tianshu Chu Xin Lin Erdun Gao Daqing Liu J. Yang Chaoyue Wang DiffM 31 16 0 05 Feb 2023
Design Booster: A Text-Guided Diffusion Model for Image Translation with Spatial Layout Preservation Shiqi Sun Shancheng Fang Qian He Wei Liu DiffM 33 3 0 05 Feb 2023
DEVICE: Depth and Visual Concepts Aware Transformer for OCR-based Image Captioning Dongsheng Xu Qingbao Huang Shuang Feng Yiru Cai Feng Shuang Yi Cai ViT VLM 32 1 0 03 Feb 2023
Effective Robustness against Natural Distribution Shifts for Models with Different Training Data Zhouxing Shi Nicholas Carlini Ananth Balashankar Ludwig Schmidt Cho-Jui Hsieh Alex Beutel Yao Qin OOD 23 9 0 02 Feb 2023
Grounding Language Models to Images for Multimodal Inputs and Outputs Jing Yu Koh Ruslan Salakhutdinov Daniel Fried MLLM 31 119 0 31 Jan 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 287 4,261 0 30 Jan 2023
AudioLDM: Text-to-Audio Generation with Latent Diffusion Models Haohe Liu Zehua Chen Yiitan Yuan Xinhao Mei Xubo Liu Danilo Mandic Wenwu Wang Mark D. Plumbley DiffM 41 468 0 29 Jan 2023
Towards Equitable Representation in Text-to-Image Synthesis Models with the Cross-Cultural Understanding Benchmark (CCUB) Dataset Zhixuan Liu Y. Shin Beverley-Claire Okogwu Youngsik Yun Lia Coleman Peter Schaldenbrand Jihie Kim Jean Oh 25 11 0 28 Jan 2023
Masked Autoencoding Does Not Help Natural Language Supervision at Scale Floris Weers Vaishaal Shankar Angelos Katharopoulos Yinfei Yang Tom Gunter CLIP 23 4 0 19 Jan 2023
Learning Customized Visual Models with Retrieval-Augmented Knowledge Haotian Liu Kilho Son Jianwei Yang Ce Liu Jianfeng Gao Yong Jae Lee Chunyuan Li VLM 40 53 0 17 Jan 2023
GLIGEN: Open-Set Grounded Text-to-Image Generation Yuheng Li Haotian Liu Qingyang Wu Fangzhou Mu Jianwei Yang Jianfeng Gao Chunyuan Li Yong Jae Lee VLM 80 569 1 17 Jan 2023
Vision Learners Meet Web Image-Text Pairs Bingchen Zhao Quan Cui Hao Wu Osamu Yoshie Cheng Yang Oisin Mac Aodha VLM 27 5 0 17 Jan 2023
RILS: Masked Visual Reconstruction in Language Semantic Space Shusheng Yang Yixiao Ge Kun Yi Dian Li Ying Shan Xiaohu Qie Xinggang Wang CLIP 43 11 0 17 Jan 2023
Filtering, Distillation, and Hard Negatives for Vision-Language Pre-Training Filip Radenovic Abhimanyu Dubey Abhishek Kadian Todor Mihaylov Simon Vandenhende Yash J. Patel Y. Wen Vignesh Ramanathan D. Mahajan VLM 37 82 0 05 Jan 2023
CiT: Curation in Training for Effective Vision-Language Data Hu Xu Saining Xie Po-Yao (Bernie) Huang Licheng Yu Russ Howes Gargi Ghosh Luke Zettlemoyer Christoph Feichtenhofer VLM DiffM 33 25 0 05 Jan 2023
ANNA: Abstractive Text-to-Image Synthesis with Filtered News Captions Aashish Anantha Ramakrishnan Sharon X. Huang Dongwon Lee 24 5 0 05 Jan 2023