Title
CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios Xiangshuo Qiao Xianxin Li Xiaozhe Qu Jie M. Zhang Yang Liu Yu Luo Cihang Jin Jin Ma VLM 93 0 0 19 Jan 2024
MM-SAP: A Comprehensive Benchmark for Assessing Self-Awareness of Multimodal Large Language Models in Perception Yuhao Wang Yusheng Liao Heyang Liu Hongcheng Liu Yu Wang Yanfeng Wang LRM VLM 81 14 0 15 Jan 2024
Low-Resource Vision Challenges for Foundation Models Yunhua Zhang Hazel Doughty Cees G. M. Snoek VLM 94 7 0 09 Jan 2024
Joint Generative Modeling of Scene Graphs and Images via Diffusion Models Bicheng Xu Qi Yan Renjie Liao Lele Wang Leonid Sigal DiffM 80 3 0 02 Jan 2024
Prompt-Propose-Verify: A Reliable Hand-Object-Interaction Data Generation Framework using Foundational Models Gurusha Juneja Sukrit Kumar DiffM 33 0 0 23 Dec 2023
Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model Shraman Pramanick Guangxing Han Rui Hou Sayan Nag Ser-Nam Lim Nicolas Ballas Qifan Wang Rama Chellappa Amjad Almahairi VLM MLLM 167 36 0 19 Dec 2023
Honeybee: Locality-enhanced Projector for Multimodal LLM Junbum Cha Wooyoung Kang Jonghwan Mun Byungseok Roh MLLM 104 133 0 11 Dec 2023
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods Panos Achlioptas Alexandros Benetatos Iordanis Fostiropoulos Dimitris Skourtis 119 9 0 11 Dec 2023
MAFA: Managing False Negatives for Vision-Language Pre-training Jaeseok Byun Dohoon Kim Taesup Moon VLM 81 6 0 11 Dec 2023
Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models Andrés Villa Juan Carlos León Alcázar Alvaro Soto Bernard Ghanem MLLM VLM 85 11 0 03 Dec 2023
The curse of language biases in remote sensing VQA: the role of spatial attributes, language diversity, and the need for clear evaluation Christel Chappuis Eliot Walt Vincent Mendez Sylvain Lobry B. L. Saux D. Tuia 101 4 0 28 Nov 2023
Mitigating Hallucination in Visual Language Models with Visual Supervision Zhiyang Chen Yousong Zhu Yufei Zhan Zhaowen Li Chaoyang Zhao Jinqiao Wang Ming Tang VLM MLLM 114 33 0 27 Nov 2023
Fully Authentic Visual Question Answering Dataset from Online Communities Chongyan Chen Mengchen Liu Noel Codella Yunsheng Li Lu Yuan Danna Gurari 116 5 0 27 Nov 2023
Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models Yufei Zhan Yousong Zhu Zhiyang Chen Fan Yang E. Goles Jinqiao Wang ObjD 114 17 0 24 Nov 2023
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks Bin Xiao Haiping Wu Weijian Xu Xiyang Dai Houdong Hu Yumao Lu Michael Zeng Ce Liu Lu Yuan VLM 114 174 0 10 Nov 2023
What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning Yifan Du Hangyu Guo Kun Zhou Wayne Xin Zhao Jinpeng Wang Chuyuan Wang Mingchen Cai Ruihua Song Ji-Rong Wen VLM MLLM LRM 187 23 0 02 Nov 2023
Multiscale Superpixel Structured Difference Graph Convolutional Network for VL Representation Siyu Zhang Ye-Ting Chen Fang Wang Yaoru Sun Jun Yang Lizhi Bai SSL 61 0 0 20 Oct 2023
PGA: Personalizing Grasping Agents with Single Human-Robot Interaction Junghyun Kim Gi-Cheon Kang Jaein Kim Seoyun Yang Minjoon Jung Byoung-Tak Zhang 78 0 0 19 Oct 2023
Learning from Rich Semantics and Coarse Locations for Long-tailed Object Detection Lingchen Meng Xiyang Dai Jianwei Yang Dongdong Chen Yinpeng Chen Mengchen Liu Yi-Ling Chen Zuxuan Wu Lu Yuan Yu-Gang Jiang 74 7 0 18 Oct 2023
Bounding and Filling: A Fast and Flexible Framework for Image Captioning Zheng Ma Changxin Wang Bo Huang Zi-Yue Zhu Jianbing Zhang 60 1 0 15 Oct 2023
Exploring Sparse Spatial Relation in Graph Inference for Text-Based VQA Sheng Zhou Dan Guo Jia Li Xun Yang Ming Wang 91 14 0 13 Oct 2023
TextPSG: Panoptic Scene Graph Generation from Textual Descriptions Chengyang Zhao Songlin Yang Zhenfang Chen Mingyu Ding Chuang Gan 157 17 0 10 Oct 2023
ReForm-Eval: Evaluating Large Vision Language Models via Unified Re-Formulation of Task-Oriented Benchmarks Zejun Li Ye Wang Mengfei Du Qingwen Liu Binhao Wu ... Zhihao Fan Jie Fu Jingjing Chen Xuanjing Huang Zhongyu Wei 118 15 0 04 Oct 2023
Predicate Classification Using Optimal Transport Loss in Scene Graph Generation Sorachi Kurita Satoshi Oyama Itsuki Noda OT 64 0 0 19 Sep 2023
A Data Source for Reasoning Embodied Agents Jack Lanchantin Sainbayar Sukhbaatar Gabriel Synnaeve Yuxuan Sun Kavya Srinet Arthur Szlam LM&Ro LRM 57 5 0 14 Sep 2023
STUPD: A Synthetic Dataset for Spatial and Temporal Relation Reasoning Palaash Agrawal Haidi Azaman Cheston Tan 158 3 0 13 Sep 2023
Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning Enna Sachdeva Nakul Agarwal Suhas Chundi Sean Roelofs Jiachen Li Mykel Kochenderfer Chiho Choi Behzad Dariush 92 51 0 12 Sep 2023
RepSGG: Novel Representations of Entities and Relationships for Scene Graph Generation Hengyue Liu B. Bhanu 109 3 0 06 Sep 2023
AGS: An Dataset and Taxonomy for Domestic Scene Sound Event Recognition Nan Che Chenrui Liu Fei Yu 62 0 0 30 Aug 2023
Shatter and Gather: Learning Referring Image Segmentation with Text Supervision Dongwon Kim Nam-Won Kim Cuiling Lan Suha Kwak VLM 98 20 0 29 Aug 2023
SCoRD: Subject-Conditional Relation Detection with Text-Augmented Data Ziyan Yang Kushal Kafle Zhe Lin Scott D. Cohen Zhihong Ding Vicente Ordonez 77 1 0 24 Aug 2023
EVE: Efficient Vision-Language Pre-training with Masked Prediction and Modality-Aware MoE Junyi Chen Longteng Guo Jianxiang Sun Shuai Shao Zehuan Yuan Liang Lin Dongyu Zhang MLLM VLM MoE 73 10 0 23 Aug 2023
PUMGPT: A Large Vision-Language Model for Product Understanding Wei Xue Zongyi Guo Baoliang Cui Zengming Tang Weiwei Zhang Haihong Tang Shuhui Wu Weiming Lu VLM 72 2 0 18 Aug 2023
Vision Relation Transformer for Unbiased Scene Graph Generation Gopika Sudhakaran Devendra Singh Dhami Kristian Kersting Stefan Roth ViT 117 18 0 18 Aug 2023
Learning the meanings of function words from grounded language using a visual question answering model Eva Portelance Michael C. Frank Dan Jurafsky NAI 82 7 0 16 Aug 2023
LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts Binbin Yang Yinzheng Luo Ziliang Chen Guangrun Wang Xiaodan Liang Liang Lin DiffM 95 15 0 13 Aug 2023
Multi-level Compositional Feature Augmentation for Unbiased Scene Graph Generation Lin Li Xingchen Li Jun Xiao Chen Li Chunping Wang 88 27 0 13 Aug 2023
Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models Zheng Ma Mianzhi Pan Wenhan Wu Ka Leong Cheng Jianbing Zhang Shujian Huang Jiajun Chen VLM CoGe 76 5 0 06 Aug 2023
ADS-Cap: A Framework for Accurate and Diverse Stylized Captioning with Unpaired Stylistic Corpora Ka Leong Cheng Zheng Ma Shi Zong Jianbing Zhang Xinyu Dai Jiajun Chen DiffM 65 3 0 02 Aug 2023
Learning Multi-modal Representations by Watching Hundreds of Surgical Video Lectures Kun Yuan V. Srivastav Tong Yu Joël L. Lavanchy J. Marescaux Pietro Mascagni Nassir Navab N. Padoy 199 23 0 27 Jul 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming-Hsuan Yang Fahad Shahbaz Khan VLM 146 127 0 25 Jul 2023
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning Liang Zhao En Yu Zheng Ge Jinrong Yang Hao-Ran Wei ... Jian‐Yuan Sun Yuang Peng Runpei Dong Chunrui Han Xiangyu Zhang MLLM LRM 79 54 0 18 Jul 2023
SINC: Self-Supervised In-Context Learning for Vision-Language Tasks Yi-Syuan Chen Yun-Zhu Song Cheng Yu Yeo Bei Liu Jianlong Fu Hong-Han Shuai VLM LRM 92 4 0 15 Jul 2023
CREPE: Learnable Prompting With CLIP Improves Visual Relationship Prediction Rakshith Subramanyam T. S. Jayram Rushil Anirudh Jayaraman J. Thiagarajan VLM 68 3 0 10 Jul 2023
Reading Between the Lanes: Text VideoQA on the Road George Tom Minesh Mathew Sergi Garcia Dimosthenis Karatzas C. V. Jawahar 88 8 0 08 Jul 2023
Open-Vocabulary Object Detection via Scene Graph Discovery Hengcan Shi Munawar Hayat Jianfei Cai ObjD 82 12 0 07 Jul 2023
GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest Shilong Zhang Pei Sun Shoufa Chen Min Xiao Wenqi Shao Wenwei Zhang Yu Liu Kai-xiang Chen Ping Luo MLLM VLM 168 238 0 07 Jul 2023
All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment Chunhui Zhang Xin Sun Li Liu Yiqian Yang Qiong Liu Xiaoping Zhou Yanfeng Wang 218 17 0 07 Jul 2023
UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding Rui Sun Zhecan Wang Haoxuan You Noel Codella Kai-Wei Chang Shih-Fu Chang CLIP 105 4 0 03 Jul 2023
Learning Differentiable Logic Programs for Abstract Visual Reasoning Hikaru Shindo Viktor Pfanschilling Devendra Singh Dhami Kristian Kersting NAI 87 9 0 03 Jul 2023