Title
Rethinking Multimodal Content Moderation from an Asymmetric Angle with Mixed-modality Jialing Yuan Ye Yu Gaurav Mittal Matthew Hall Sandra Sajeev Mei Chen 93 10 0 17 May 2023
IMAD: IMage-Augmented multi-modal Dialogue Viktor Moskvoretskii Anton Frolov Denis Kuznetsov 78 5 0 17 May 2023
What You See is What You Read? Improving Text-Image Alignment Evaluation Michal Yarom Yonatan Bitton Soravit Changpinyo Roee Aharoni Jonathan Herzig Oran Lang E. Ofek Idan Szpektor EGVM 144 85 0 17 May 2023
Evaluating Object Hallucination in Large Vision-Language Models Yifan Li Yifan Du Kun Zhou Jinpeng Wang Wayne Xin Zhao Ji-Rong Wen MLLM LRM 352 816 0 17 May 2023
Sequence-to-Sequence Pre-training with Unified Modality Masking for Visual Document Understanding ShuWei Feng Tianyang Zhan Zhanming Jie Trung Quoc Luong Xiaoran Jin 51 1 0 16 May 2023
Simple Token-Level Confidence Improves Caption Correctness Suzanne Petryk Spencer Whitehead Joseph E. Gonzalez Trevor Darrell Anna Rohrbach Marcus Rohrbach 90 7 0 11 May 2023
Musketeer: Joint Training for Multi-task Vision Language Model with Task Explanation Prompts Zhaoyang Zhang Yantao Shen Kunyu Shi Zhaowei Cai Jun Fang Siqi Deng Hao Yang Davide Modolo Zhuowen Tu Stefano Soatto VLM 83 2 0 11 May 2023
Self-Chained Image-Language Model for Video Localization and Question Answering Shoubin Yu Jaemin Cho Prateek Yadav Joey Tianyi Zhou 147 142 0 11 May 2023
Combo of Thinking and Observing for Outside-Knowledge VQA Q. Si Yuchen Mo Zheng Lin Huishan Ji Weiping Wang 95 14 0 10 May 2023
A Multi-Modal Context Reasoning Approach for Conditional Inference on Joint Textual and Visual Clues Yunxin Li Baotian Hu Xinyu Chen Yuxin Ding Lin Ma Min Zhang LRM 93 15 0 08 May 2023
VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation Xilun Chen L. Yu Wenhan Xiong Barlas Ouguz Yashar Mehdad Wen-tau Yih VGen 58 3 0 04 May 2023
Multi-Modality Deep Network for JPEG Artifacts Reduction Xuhao Jiang Weimin Tan Qing Lin Chenxi Ma Bo Yan Liquan Shen 82 2 0 04 May 2023
Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings Daniel Philip Rose Vaishnavi Himakunthala Andy Ouyang Ryan He Alex Mei Yujie Lu Michael Stephen Saxon Chinmay Sonar Diba Mirza William Yang Wang LRM 144 46 0 03 May 2023
Making the Most of What You Have: Adapting Pre-trained Visual Language Models in the Low-data Regime Chuhan Zhang Antoine Miech Jiajun Shen Jean-Baptiste Alayrac Pauline Luc VLM VPVLM 90 2 0 03 May 2023
A Neural Divide-and-Conquer Reasoning Framework for Image Retrieval from Linguistically Complex Text Yunxin Li Baotian Hu Yuxin Ding Lin Ma Hao Fei 76 5 0 03 May 2023
Multimodal Procedural Planning via Dual Text-Image Prompting Yujie Lu Pan Lu Zhiyu Zoey Chen Wanrong Zhu Xinze Wang William Yang Wang LM&Ro 130 45 0 02 May 2023
Multimodal Neural Databases Giovanni Trappolini Andrea Santilli Emanuele Rodolà A. Halevy Fabrizio Silvestri 101 10 0 02 May 2023
$π$ -Tuning: Transferring Multimodal Foundation Models with Optimal Multi-task Interpolation Chengyue Wu Teng Wang Yixiao Ge Zeyu Lu Rui-Zhi Zhou Ying Shan Ping Luo MoMe 145 37 0 27 Apr 2023
Retrieval-based Knowledge Augmented Vision Language Pre-training Jiahua Rao Zifei Shan Long Liu Yao Zhou Yuedong Yang VLM 163 14 0 27 Apr 2023
Understand the Dynamic World: An End-to-End Knowledge Informed Framework for Open Domain Entity State Tracking Mingchen Li Lifu Huang 110 10 0 26 Apr 2023
Multi-Modality Deep Network for Extreme Learned Image Compression Xuhao Jiang Weimin Tan Tian Tan Bo Yan Liquan Shen 28 18 0 26 Apr 2023
Building Multimodal AI Chatbots Mingyu Lee 59 3 0 21 Apr 2023
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Sihan Chen Xingjian He Longteng Guo Xinxin Zhu Weining Wang Jinhui Tang Jinhui Tang VLM 136 112 0 17 Apr 2023
Efficient Multimodal Fusion via Interactive Prompting Yaowei Li Ruijie Quan Linchao Zhu Yezhou Yang 82 45 0 13 Apr 2023
Boosting Cross-task Transferability of Adversarial Patches with Visual Relations Tony Ma Songze Li Yisong Xiao Shunchang Liu 57 1 0 11 Apr 2023
Token Boosting for Robust Self-Supervised Visual Transformer Pre-training Tianjiao Li Lin Geng Foo Ping Hu Xindi Shang Hossein Rahmani Zehuan Yuan Jing Liu 119 7 0 09 Apr 2023
SegGPT: Segmenting Everything In Context Xinlong Wang Xiaosong Zhang Yue Cao Wen Wang Chunhua Shen Tiejun Huang VOS MLLM VLM 114 208 0 06 Apr 2023
Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-commerce Yang Jin Yongzhi Li Zehuan Yuan Yadong Mu 70 14 0 06 Apr 2023
Uncurated Image-Text Datasets: Shedding Light on Demographic Bias Noa Garcia Yusuke Hirota Yankun Wu Yuta Nakashima EGVM 88 57 0 06 Apr 2023
RegionPLC: Regional Point-Language Contrastive Learning for Open-World 3D Scene Understanding Jihan Yang Runyu Ding Weipeng Deng Zhe Wang Xiaojuan Qi 133 69 0 03 Apr 2023
Towards Flexible Multi-modal Document Models Naoto Inoue Kotaro Kikuchi E. Simo-Serra Mayu Otani Kota Yamaguchi 81 22 0 31 Mar 2023
A Study of Autoregressive Decoders for Multi-Tasking in Computer Vision Lucas Beyer Bo Wan Gagan Madan Filip Pavetić Andreas Steiner ... Emanuele Bugliarello Tianlin Li Qihang Yu Liang-Chieh Chen Xiaohua Zhai 130 9 0 30 Mar 2023
LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention Renrui Zhang Jiaming Han Chris Liu Peng Gao Aojun Zhou Xiangfei Hu Shilin Yan Pan Lu Hongsheng Li Yu Qiao MLLM 181 787 0 28 Mar 2023
Exposing and Addressing Cross-Task Inconsistency in Unified Vision-Language Models A. Maharana Amita Kamath Christopher Clark Joey Tianyi Zhou Aniruddha Kembhavi 85 3 0 28 Mar 2023
WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation Jongheon Jeong Yang Zou Taewan Kim Dongqing Zhang Avinash Ravichandran Onkar Dabeer VLM 138 210 0 26 Mar 2023
IFSeg: Image-free Semantic Segmentation via Vision-Language Model Sukmin Yun S. Park Paul Hongsuck Seo Jinwoo Shin VLM MLLM 111 14 0 25 Mar 2023
Train/Test-Time Adaptation with Retrieval Luca Zancato Alessandro Achille Tian Yu Liu Matthew Trager Pramuditha Perera Stefano Soatto TTA OOD 62 12 0 25 Mar 2023
CoBIT: A Contrastive Bi-directional Image-Text Generation Model Haoxuan You Mandy Guo Zhecan Wang Kai-Wei Chang Jason Baldridge Jiahui Yu DiffM 81 13 0 23 Mar 2023
Integrating Image Features with Convolutional Sequence-to-sequence Network for Multilingual Visual Question Answering T. M. Thai Son T. Luu 86 0 0 22 Mar 2023
MAGVLT: Masked Generative Vision-and-Language Transformer Sungwoong Kim DaeJin Jo Donghoon Lee Jongmin Kim VLM 58 12 0 21 Mar 2023
TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering Yushi Hu Benlin Liu Jungo Kasai Yizhong Wang Mari Ostendorf Ranjay Krishna Noah A. Smith EGVM 87 239 0 21 Mar 2023
eP-ALM: Efficient Perceptual Augmentation of Language Models Mustafa Shukor Corentin Dancette Matthieu Cord MLLM VLM 72 31 0 20 Mar 2023
Text2Tex: Text-driven Texture Synthesis via Diffusion Models Dave Zhenyu Chen Yawar Siddiqui Hsin-Ying Lee Sergey Tulyakov Matthias Nießner DiffM 125 201 0 20 Mar 2023
Multi-modal reward for visual relationships-based image captioning Ali Abedi Hossein Karshenas Peyman Adibi 131 2 0 19 Mar 2023
CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos Seungju Han Jack Hessel Nouha Dziri Yejin Choi Youngjae Yu VGen 90 19 0 17 Mar 2023
A Picture is Worth a Thousand Words: Language Models Plan from Pixels Anthony Z. Liu Lajanugen Logeswaran Sungryull Sohn Honglak Lee LM&Ro 39 6 0 16 Mar 2023
ViperGPT: Visual Inference via Python Execution for Reasoning Dídac Surís Sachit Menon Carl Vondrick MLLM LRM ReLM 136 468 0 14 Mar 2023
Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images Nitzan Bitton-Guetta Yonatan Bitton Jack Hessel Ludwig Schmidt Yuval Elovici Gabriel Stanovsky Roy Schwartz VLM 226 70 0 13 Mar 2023
ViM: Vision Middleware for Unified Downstream Transferring Yutong Feng Biao Gong Jianwen Jiang Yiliang Lv Yujun Shen Deli Zhao Jingren Zhou 98 1 0 13 Mar 2023
Contextually-rich human affect perception using multimodal scene information Digbalay Bose Rajat Hebbar Krishna Somandepalli Shrikanth Narayanan 82 3 0 13 Mar 2023