Title
LocCa: Visual Pretraining with Location-aware Captioners Bo Wan Michael Tschannen Yongqin Xian Filip Pavetić Ibrahim Alabdulmohsin Xiao Wang André Susano Pinto Andreas Steiner Lucas Beyer Xiao-Qi Zhai VLM 148 7 0 28 Mar 2024
Text Data-Centric Image Captioning with Interactive Prompts Yiyu Wang Hao Luo Jungang Xu Yingfei Sun Fan Wang VLM 76 0 0 28 Mar 2024
Toward Interactive Regional Understanding in Vision-Large Language Models Jungbeom Lee Sanghyuk Chun Sangdoo Yun VLM 82 3 0 27 Mar 2024
m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt Jian Yang Hongcheng Guo Yuwei Yin Jiaqi Bai Bing Wang Jiaheng Liu Xinnian Liang Linzheng Cahi Liqun Yang Zhoujun Li 71 10 0 26 Mar 2024
Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning Hao Shao Shengju Qian Han Xiao Guanglu Song Zhuofan Zong Letian Wang Yu Liu Hongsheng Li VGen LRM MLLM 112 77 0 25 Mar 2024
Elysium: Exploring Object-level Perception in Videos via MLLM Hang Wang Yanjie Wang Yongjie Ye Yuxiang Nie Can Huang MLLM 88 23 0 25 Mar 2024
Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models Minchan Kim Minyeong Kim Junik Bae Suhwan Choi Sungkyung Kim Buru Chang VLM 45 4 0 24 Mar 2024
VidLA: Video-Language Alignment at Scale Mamshad Nayeem Rizve Fan Fei Jayakrishnan Unnikrishnan Son Tran Benjamin Z. Yao Belinda Zeng Mubarak Shah Trishul Chilimbi VLM AI4TS 92 4 0 21 Mar 2024
Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination Dingchen Yang Bowen Cao Guang Chen Changjun Jiang 87 11 0 21 Mar 2024
Inserting Faces inside Captions: Image Captioning with Attention Guided Merging Yannis Tevissen Khalil Guetari Marine Tassel Erwan Kerleroux Frédéric Petitpont 65 0 0 20 Mar 2024
SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models Tongtian Yue Jie Cheng Longteng Guo Xingyuan Dai Zijia Zhao Xingjian He Gang Xiong Yisheng Lv Jing Liu 115 11 0 20 Mar 2024
mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding Anwen Hu Haiyang Xu Jiabo Ye Mingshi Yan Liang Zhang ... Chen Li Ji Zhang Qin Jin Fei Huang Jingren Zhou VLM 117 125 0 19 Mar 2024
DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM YiXuan Wu Yizhou Wang Shixiang Tang Wenhao Wu Tong He Wanli Ouyang Jian Wu Philip Torr ObjD VLM 104 22 0 19 Mar 2024
Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond Tianxin Wei Bowen Jin Ruirui Li Hansi Zeng Zhengyang Wang ... Qingyu Yin Hanqing Lu Suhang Wang Jingrui He Xianfeng Tang 92 23 0 15 Mar 2024
Knowledge Condensation and Reasoning for Knowledge-based VQA Dongze Hao Jian Jia Longteng Guo Qunbo Wang Te Yang ... Yanhua Cheng Bo Wang Quan Chen Han Li Jing Liu 79 1 0 15 Mar 2024
GiT: Towards Generalist Vision Transformer through Universal Language Interface Haiyang Wang Hao Tang Li Jiang Shaoshuai Shi Muhammad Ferjad Naeem Hongsheng Li Bernt Schiele Liwei Wang VLM 101 13 0 14 Mar 2024
Griffon v2: Advancing Multimodal Perception with High-Resolution Scaling and Visual-Language Co-Referring Yufei Zhan Yousong Zhu Hongyin Zhao Fan Yang Ming Tang Jinqiao Wang ObjD 98 14 0 14 Mar 2024
Explore In-Context Segmentation via Latent Diffusion Models Chaoyang Wang Xiangtai Li Henghui Ding Lu Qi Jiangning Zhang Yunhai Tong Chen Change Loy Shuicheng Yan DiffM 158 7 0 14 Mar 2024
An Empirical Study of Parameter Efficient Fine-tuning on Vision-Language Pre-train Model Yuxin Tian Mouxing Yang Yunfan Li Dayiheng Liu Xingzhang Ren Xiaocui Peng Jiancheng Lv VLM 73 0 0 13 Mar 2024
Continuous Object State Recognition for Cooking Robots Using Pre-Trained Vision-Language Models and Black-box Optimization Kento Kawaharazuka Naoaki Kanazawa Yoshiki Obinata K. Okada Masayuki Inaba 62 6 0 13 Mar 2024
Masked AutoDecoder is Effective Multi-Task Vision Generalist Han Qiu Jiaxing Huang Peng Gao Lewei Lu Xiaoqin Zhang Shijian Lu 85 4 0 12 Mar 2024
Decomposing Disease Descriptions for Enhanced Pathology Detection: A Multi-Aspect Vision-Language Pre-training Framework Vu Minh Hieu Phan Yutong Xie Yuankai Qi Lingqiao Liu Liyang Liu Bowen Zhang Zhibin Liao Qi Wu Minh-Son To Johan Verjans 128 14 0 12 Mar 2024
Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models Yang Jiao Shaoxiang Chen Zequn Jie Wenke Huang Lin Ma Yueping Jiang MLLM 83 20 0 12 Mar 2024
Split to Merge: Unifying Separated Modalities for Unsupervised Domain Adaptation Xinyao Li Yuke Li Zhekai Du Fengling Li Ke Lu Jingjing Li VLM 91 6 0 11 Mar 2024
Toward Generalist Anomaly Detection via In-context Residual Learning with Few-shot Sample Prompts Jiawen Zhu Guansong Pang VLM 103 40 0 11 Mar 2024
VEglue: Testing Visual Entailment Systems via Object-Aligned Joint Erasing Zhiyuan Chang Mingyang Li Junjie Wang Cheng Li Qing Wang 58 0 0 05 Mar 2024
Enhancing Vision-Language Pre-training with Rich Supervisions Yuan Gao Kunyu Shi Pengkai Zhu Edouard Belval Oren Nuriel Srikar Appalaraju Shabnam Ghadar Vijay Mahadevan Zhuowen Tu Stefano Soatto VLM CLIP 156 12 0 05 Mar 2024
Non-autoregressive Sequence-to-Sequence Vision-Language Models Kunyu Shi Qi Dong Luis Goncalves Zhuowen Tu Stefano Soatto VLM 140 3 0 04 Mar 2024
Adversarial Testing for Visual Grounding via Image-Aware Property Reduction Zhiyuan Chang Mingyang Li Junjie Wang Cheng Li Boyu Wu Fanjiang Xu Qing Wang AAML 63 0 0 02 Mar 2024
Improving Explicit Spatial Relationships in Text-to-Image Generation through an Automatically Derived Dataset Ander Salaberria Gorka Azkune Oier López de Lacalle A. Soroa Eneko Agirre Frank Keller EGVM 49 2 0 01 Mar 2024
Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language Pre-training Haowei Liu Yaya Shi Haiyang Xu Chunfen Yuan Qinghao Ye ... Mingshi Yan Ji Zhang Fei Huang Bing Li Weiming Hu VLM 94 0 0 01 Mar 2024
The All-Seeing Project V2: Towards General Relation Comprehension of the Open World Weiyun Wang Yiming Ren Hao Luo Tiantong Li Chenxiang Yan ... Qingyun Li Lewei Lu Xizhou Zhu Yu Qiao Jifeng Dai MLLM 143 53 0 29 Feb 2024
Polos: Multimodal Metric Learning from Human Feedback for Image Captioning Yuiga Wada Kanta Kaneda Daichi Saito Komei Sugiura 89 30 0 28 Feb 2024
Measuring Vision-Language STEM Skills of Neural Models Jianhao Shen Ye Yuan Srbuhi Mirzoyan Ming Zhang Chenguang Wang VLM 119 12 0 27 Feb 2024
VCD: A Dataset for Visual Commonsense Discovery in Images Xiangqing Shen Yurun Song Siwei Wu Rui Xia 113 6 0 27 Feb 2024
GROUNDHOG: Grounding Large Language Models to Holistic Segmentation Yichi Zhang Ziqiao Ma Xiaofeng Gao Suhaila Shakiah Qiaozi Gao Joyce Chai MLLM VLM 133 47 0 26 Feb 2024
Multimodal Transformer With a Low-Computational-Cost Guarantee Sungjin Park Edward Choi 61 2 0 23 Feb 2024
Towards Robust Instruction Tuning on Multimodal Large Language Models Wei Han Hui Chen Soujanya Poria MLLM 76 1 0 22 Feb 2024
Distinctive Image Captioning: Leveraging Ground Truth Captions in CLIP Guided Reinforcement Learning Antoine Chaffin Ewa Kijak Vincent Claveau 81 0 0 21 Feb 2024
SInViG: A Self-Evolving Interactive Visual Agent for Human-Robot Interaction Jie Xu Hanbo Zhang Xinghang Li Huaping Liu Xuguang Lan Tao Kong LM&Ro 95 3 0 19 Feb 2024
Cobra Effect in Reference-Free Image Captioning Metrics Zheng Ma Changxin Wang Yawen Ouyang Fei Zhao Jianbing Zhang Shujian Huang Jiajun Chen 90 2 0 18 Feb 2024
Beyond Literal Descriptions: Understanding and Locating Open-World Objects Aligned with Human Intentions Wenxuan Wang Yisi Zhang Xingjian He Yichen Yan Zijia Zhao Xinlong Wang Jing Liu LM&Ro 81 4 0 17 Feb 2024
LLMs as Bridges: Reformulating Grounded Multimodal Named Entity Recognition Jinyuan Li Han Li Di Sun Jiahao Wang Wenkun Zhang Zan Wang Gang Pan 101 7 0 15 Feb 2024
Can Text-to-image Model Assist Multi-modal Learning for Visual Recognition with Visual Modality Missing? Tiantian Feng Daniel Yang Digbalay Bose Shrikanth Narayanan 100 6 0 14 Feb 2024
Pretraining Vision-Language Model for Difference Visual Question Answering in Longitudinal Chest X-rays Yeongjae Cho Taehee Kim Heejun Shin Sungzoon Cho Dongmyung Shin 39 2 0 14 Feb 2024
PIN: Positional Insert Unlocks Object Localisation Abilities in VLMs Michael Dorkenwald Nimrod Barazani Cees G. M. Snoek Yuki M. Asano VLM MLLM 59 12 0 13 Feb 2024
SPICA: Interactive Video Content Exploration through Augmented Audio Descriptions for Blind or Low-Vision Viewers Zheng Ning Brianna L Wimer Kaiwen Jiang Keyi Chen Jerrick Ban Yapeng Tian Yuhang Zhao Tao Li 64 16 0 11 Feb 2024
CLIP-Loc: Multi-modal Landmark Association for Global Localization in Object-based Maps Shigemichi Matsuzaki Takuma Sugino Kazuhito Tanaka Zijun Sha Shintaro Nakaoka Shintaro Yoshizawa Kazuhiro Shintani VLM 112 5 0 08 Feb 2024
Real-World Robot Applications of Foundation Models: A Review Kento Kawaharazuka T. Matsushima Andrew Gambardella Jiaxian Guo Chris Paxton Andy Zeng OffRL VLM LM&Ro 116 54 0 08 Feb 2024
Question Aware Vision Transformer for Multimodal Reasoning Roy Ganz Yair Kittenplon Aviad Aberdam Elad Ben Avraham Oren Nuriel Shai Mazor Ron Litman 106 23 0 08 Feb 2024