Title
HallE-Control: Controlling Object Hallucination in Large Multimodal Models Bohan Zhai Shijia Yang Chenfeng Xu Sheng Shen Kurt Keutzer Chunyuan Li Manling Li MLLM 31 12 0 03 Oct 2023
PRIME: Prioritizing Interpretability in Failure Mode Extraction Keivan Rezaei Mehrdad Saberi Mazda Moayeri S. Feizi 27 8 0 29 Sep 2023
ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and Planning Yuanyi Zhong Alihusein Kuwajerwala Sacha Morin Krishna Murthy Jatavallabhula Bipasha Sen ... Celso Miguel de Melo Joshua B. Tenenbaum Antonio Torralba Florian Shkurti Liam Paull LM&Ro 38 169 0 28 Sep 2023
LGMCTS: Language-Guided Monte-Carlo Tree Search for Executable Semantic Object Rearrangement Haonan Chang D. K. Bukovšek T. Kosir Alex Lee Blaz Mojskerc Harish Udhaya Kumar M. Omladič Abdeslam Boularias LM&Ro 26 11 0 27 Sep 2023
Motion Segmentation from a Moving Monocular Camera Yuxiang Huang John S. Zelek VOS 31 5 0 24 Sep 2023
Discuss Before Moving: Visual Language Navigation via Multi-expert Discussions Yuxing Long Xiaoqi Li Wenzhe Cai Hao Dong LLMAG LM&Ro 32 45 0 20 Sep 2023
Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill Wenzhe Cai Siyuan Huang Guangran Cheng Yuxing Long Peng Gao Changyin Sun Hao Dong LM&Ro 27 42 0 19 Sep 2023
FoodSAM: Any Food Segmentation Xing Lan Jiayi Lyu Han Jiang Kunkun Dong Zehai Niu Yi Zhang Jian Xue VLM 31 25 0 11 Aug 2023
OmniDataComposer: A Unified Data Structure for Multimodal Data Fusion and Infinite Data Generation Dongyang Yu Shihao Wang Yuan Fang Wangpeng An VGen 41 0 0 08 Aug 2023
Foundational Models Defining a New Era in Vision: A Survey and Outlook Muhammad Awais Muzammal Naseer Salman Khan Rao Muhammad Anwer Hisham Cholakkal M. Shah Ming Yang Fahad Shahbaz Khan VLM 40 119 0 25 Jul 2023
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs Yang Zhao Zhijie Lin Daquan Zhou Zilong Huang Jiashi Feng Bingyi Kang MLLM 44 108 0 17 Jul 2023
RealignDiff: Boosting Text-to-Image Diffusion Model with Coarse-to-fine Semantic Re-alignment Guian Fang Zutao Jiang Jianhua Han Guangsong Lu Hang Xu Shengcai Liao Xiaodan Liang EGVM 29 1 0 31 May 2023
Segment anything, from space? Simiao Ren Francesco Luzi Saad Lahrichi Kaleb Kassaw L. Collins Kyle Bradbury Jordan M. Malof VLM 31 43 0 25 Apr 2023
Tag2Text: Guiding Vision-Language Model via Image Tagging Xinyu Huang Youcai Zhang Jinyu Ma Weiwei Tian Rui Feng Yuejie Zhang Yaqian Li Yandong Guo Lei Zhang CLIP MLLM VLM 3DV 69 74 0 10 Mar 2023
Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang Shalini De Mello VLM 223 320 0 08 Mar 2023
Open-Vocabulary Multi-Label Classification via Multi-Modal Knowledge Transfer Su He Taian Guo Tao Dai Ruizhi Qiao Bo Ren Shutao Xia VLM 78 49 0 05 Jul 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 392 4,171 0 28 Jan 2022
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 302 1,086 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 340 3,726 0 11 Feb 2021
Semantic Understanding of Scenes through the ADE20K Dataset Bolei Zhou Hang Zhao Xavier Puig Tete Xiao Sanja Fidler Adela Barriuso Antonio Torralba SSeg 253 1,833 0 18 Aug 2016