Language-driven Semantic Segmentation

10 January 2022

Boyi Li

Papers citing "Language-driven Semantic Segmentation"

50 / 478 papers shown

Title
Lifelong LERF: Local 3D Semantic Inventory Monitoring Using FogROS2 Adam Rashid C. Kim J. Kerr Letian Fu Kush Hari ... Michael Wang Christian Juette Nan Tian Liu Ren Kenneth Y. Goldberg 30 6 0 15 Mar 2024
GaussianGrasper: 3D Language Gaussian Splatting for Open-vocabulary Robotic Grasping Yuhang Zheng Xiangyu Chen Yupeng Zheng Songen Gu Runyi Yang ... Chao Yang Dawei Wang Zhen Chen Xiaoxiao Long Meiqing Wang 55 43 0 14 Mar 2024
PosSAM: Panoptic Open-vocabulary Segment Anything VS Vibashan Shubhankar Borse Hyojin Park Debasmit Das Vishal M. Patel Munawar Hayat Fatih Porikli VLM MLLM 43 6 0 14 Mar 2024
OpenGraph: Open-Vocabulary Hierarchical 3D Graph Representation in Large-Scale Outdoor Environments Yinan Deng Jiahui Wang Jingyu Zhao Xinyu Tian Guangyan Chen Yi Yang Yufeng Yue 3DV 32 13 0 14 Mar 2024
Annotation Free Semantic Segmentation with Vision Foundation Models Soroush Seifi Daniel Olmeda Reino Fabien Despinoy Rahaf Aljundi VLM 34 1 0 14 Mar 2024
GaussCtrl: Multi-View Consistent Text-Driven 3D Gaussian Splatting Editing Jing Wu Jiawang Bian Xinghui Li Guangrun Wang Ian D Reid Philip H. S. Torr V. Prisacariu 3DGS 27 33 0 13 Mar 2024
Language-Driven Visual Consensus for Zero-Shot Semantic Segmentation Zicheng Zhang Tong Zhang Yi Zhu Jian-zhuo Liu Xiaodan Liang QiXiang Ye Wei Ke VLM 49 2 0 13 Mar 2024
DiaLoc: An Iterative Approach to Embodied Dialog Localization Chao Zhang Mohan Li Ignas Budvytis Stephan Liwicki 46 2 0 11 Mar 2024
Rethinking CLIP-based Video Learners in Cross-Domain Open-Vocabulary Action Recognition Kun-Yu Lin Henghui Ding Jiaming Zhou Yu-Ming Tang Yi-Xing Peng Zhilin Zhao Chen Change Loy Wei-Shi Zheng VLM 37 15 0 03 Mar 2024
SA-MixNet: Structure-aware Mixup and Invariance Learning for Scribble-supervised Road Extraction in Remote Sensing Images Jie Feng Hao Huang Junpeng Zhang Weisheng Dong Dingwen Zhang Licheng Jiao 30 2 0 03 Mar 2024
CLIPose: Category-Level Object Pose Estimation with Pre-trained Vision-Language Knowledge Xiao Lin Minghao Zhu Ronghao Dang Guangliang Zhou Shaolong Shu Feng Lin Chengju Liu Qi Chen CLIP 49 8 0 24 Feb 2024
Semantically-aware Neural Radiance Fields for Visual Scene Understanding: A Comprehensive Review Thang-Anh-Quan Nguyen Amine Bourki Mátyás Macudzinski Anthony Brunel M. Bennamoun 32 10 0 17 Feb 2024
HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections Chen Dudai Morris Alper Hana Bezalel Rana Hanocka Itai Lang Hadar Averbuch-Elor 23 2 0 14 Feb 2024
Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision Zhaoqing Wang Xiaobo Xia Ziye Chen Xiao He Yandong Guo Biwei Huang Tongliang Liu VLM 26 11 0 14 Feb 2024
Real-World Robot Applications of Foundation Models: A Review Kento Kawaharazuka T. Matsushima Andrew Gambardella Jiaxian Guo Chris Paxton Andy Zeng OffRL VLM LM&Ro 48 45 0 08 Feb 2024
OV-NeRF: Open-vocabulary Neural Radiance Fields with Vision and Language Foundation Models for 3D Semantic Understanding Guibiao Liao Kaichen Zhou Zhenyu Bao Kanglin Liu Qing Li VLM 20 20 0 07 Feb 2024
V-IRL: Grounding Virtual Intelligence in Real Life Jihan Yang Runyu Ding Ellis L Brown Xiaojuan Qi Saining Xie LM&Ro 56 19 0 05 Feb 2024
Exploring Simple Open-Vocabulary Semantic Segmentation Zihang Lai VLM 21 0 0 22 Jan 2024
Semantic Prompt Learning for Weakly-Supervised Semantic Segmentation Ci-Siang Lin Chien-Yi Wang Yu-Chiang Frank Wang Min-Hung Chen VLM 23 0 0 22 Jan 2024
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models Koichi Namekata Amirmojtaba Sabour Sanja Fidler Seung Wook Kim 49 18 0 22 Jan 2024
UniM-OV3D: Uni-Modality Open-Vocabulary 3D Scene Understanding with Fine-Grained Feature Representation Qingdong He Jinlong Peng Zhengkai Jiang Kai Wu Xiaozhong Ji Jiangning Zhang Yabiao Wang Chengjie Wang Mingang Chen Yunsheng Wu 3DPC 31 8 0 21 Jan 2024
OMG-Seg: Is One Model Good Enough For All Segmentation? Xiangtai Li Haobo Yuan Wei Li Henghui Ding Size Wu Wenwei Zhang Yining Li Kai Chen Chen Change Loy VLM MLLM ViT 80 52 0 18 Jan 2024
Instance Brownian Bridge as Texts for Open-vocabulary Video Instance Segmentation Ze-Long Cheng Kehan Li Hao Li Peng Jin Chang Liu Xiawu Zheng Rongrong Ji Jie Chen VOS 36 2 0 18 Jan 2024
POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images Antonín Vobecký Oriane Siméoni David Hurych Spyros Gidaris Andrei Bursuc Patrick Pérez Josef Sivic 40 33 0 17 Jan 2024
Forging Vision Foundation Models for Autonomous Driving: Challenges, Methodologies, and Opportunities Xu Yan Haiming Zhang Yingjie Cai Jingming Guo Weichao Qiu ... Lihui Jiang Wei Zhang Hongbo Zhang Dengxin Dai Bingbing Liu 56 17 0 16 Jan 2024
MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation Mi Yan Jiazhao Zhang Yan Zhu H. Wang 3DV ISeg 31 29 0 15 Jan 2024
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding Bowen Shi Peisen Zhao Zichen Wang Yuhang Zhang Yaoming Wang ... Wenrui Dai Junni Zou Hongkai Xiong Qi Tian Xiaopeng Zhang VLM 40 7 0 12 Jan 2024
APLe: Token-Wise Adaptive for Multi-Modal Prompt Learning Guiming Cao Kaize Shi Hong Fu Huaiwen Zhang Guandong Xu VLM 31 1 0 12 Jan 2024
AffordanceLLM: Grounding Affordance from Vision Language Models Shengyi Qian Weifeng Chen Min Bai Xiong Zhou Zhuowen Tu Li Erran Li 23 20 0 12 Jan 2024
Revisiting Adversarial Training at Scale Zeyu Wang Xianhang Li Hongru Zhu Cihang Xie 34 15 0 09 Jan 2024
3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language Distillation Zihao Xiao Longlong Jing Shangxuan Wu Alex Zihao Zhu Jingwei Ji ... Thomas Funkhouser Weicheng Kuo A. Angelova Yin Zhou Shiwei Sheng VLM 33 5 0 04 Jan 2024
FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding Xingxing Zuo Pouya Samangouei Yunwen Zhou Yan Di Mingyang Li 3DGS 19 46 0 03 Jan 2024
LangSplat: 3D Language Gaussian Splatting Minghan Qin Wanhua Li Jiawei Zhou Haoqian Wang Hanspeter Pfister VLM 3DGS 26 179 0 26 Dec 2023
Parrot Captions Teach CLIP to Spot Text Yiqi Lin Conghui He Alex Jinpeng Wang Bin Wang Weijia Li Mike Zheng Shou 36 7 0 21 Dec 2023
A Semantic Space is Worth 256 Language Descriptions: Make Stronger Segmentation Models with Descriptive Properties Junfei Xiao Ziqi Zhou Wenxuan Li Shiyi Lan Jieru Mei Zhiding Yu Alan L. Yuille Yuyin Zhou Cihang Xie VLM 19 1 0 21 Dec 2023
TextFusion: Unveiling the Power of Textual Semantics for Controllable Image Fusion Chunyang Cheng Tianyang Xu Xiao-Jun Wu Hui Li Xi Li Zhangyong Tang Josef Kittler 18 12 0 21 Dec 2023
CLIP-DINOiser: Teaching CLIP a few DINO tricks for open-vocabulary semantic segmentation Monika Wysoczañska Oriane Siméoni Michael Ramamonjisoa Andrei Bursuc Tomasz Trzciñski Patrick Pérez VLM CLIP 34 29 0 19 Dec 2023
Understanding the Multi-modal Prompts of the Pre-trained Vision-Language Model Shuailei Ma Chen-Wei Xie Ying-yu Wei Siyang Sun Jiaqi Fan Xiaoyi Bao Yuxin Guo Yun Zheng VLM VPVLM 26 2 0 18 Dec 2023
Open3DIS: Open-Vocabulary 3D Instance Segmentation with 2D Mask Guidance P. Nguyen T.D. Ngo E. Kalogerakis Chuang Gan Anh Tran Cuong Pham Khoi Duc Minh Nguyen ISeg 26 51 0 17 Dec 2023
LAENeRF: Local Appearance Editing for Neural Radiance Fields Lukas Radl Michael Steiner A. Kurz Markus Steinberger 32 2 0 15 Dec 2023
SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds Minghao Chen Junyu Xie Iro Laina Andrea Vedaldi KELM 47 9 0 14 Dec 2023
Toward General-Purpose Robots via Foundation Models: A Survey and Meta-Analysis Yafei Hu Quanting Xie Vidhi Jain Jonathan M Francis Jay Patrikar ... Xiaolong Wang Sebastian A. Scherer Z. Kira Fei Xia Yonatan Bisk LM&Ro AI4CE 32 63 0 14 Dec 2023
Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview Correspondence-Enhanced Diffusion Models Liangchen Song Liangliang Cao Jiatao Gu Yifan Jiang Junsong Yuan Hao Tang DiffM 21 13 0 13 Dec 2023
Foundation Models in Robotics: Applications, Challenges, and the Future Roya Firoozi Johnathan Tucker Stephen Tian Anirudha Majumdar Jiankai Sun ... Brian Ichter Danny Driess Jiajun Wu Cewu Lu Mac Schwager LM&Ro AI4CE LRM VLM 37 140 0 13 Dec 2023
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor Shuyang Sun Runjia Li Philip H. S. Torr Xiuye Gu Siyang Li VLM CLIP 36 32 0 12 Dec 2023
CLIP in Medical Imaging: A Comprehensive Survey Zihao Zhao Yuxiao Liu Han Wu Yonghao Li Sheng Wang L. Teng Disheng Liu Zhiming Cui Qian Wang Dinggang Shen CLIP MedIm LM&MA VLM 28 2 0 12 Dec 2023
Deciphering 'What' and 'Where' Visual Pathways from Spectral Clustering of Layer-Distributed Neural Representations Xiao Zhang David Yunis Michael Maire 25 2 0 11 Dec 2023
OpenSD: Unified Open-Vocabulary Segmentation and Detection Shuai Li Ming-hui Li Pengfei Wang Lei Zhang ObjD VLM 32 6 0 10 Dec 2023
Open-Vocabulary Segmentation with Semantic-Assisted Calibration Yong Liu Sule Bai Guanbin Li Yitong Wang Yansong Tang VLM 31 28 0 07 Dec 2023
PartDistill: 3D Shape Part Segmentation by Vision-Language Model Distillation Ardian Umam Cheng-Kun Yang Min-Hung Chen Jen-Hui Chuang Yen-Yu Lin 29 11 0 07 Dec 2023