Title
Learning Efficient Unsupervised Satellite Image-based Building Damage Detection Yiyun Zhang Zijian Wang Yadan Luo Xin Yu Zi Huang 58 5 0 04 Dec 2023
StoryGPT-V: Large Language Models as Consistent Story Visualizers Xiaoqian Shen Mohamed Elhoseiny VLM 218 12 0 04 Dec 2023
DragVideo: Interactive Drag-style Video Editing Yufan Deng Ruida Wang Yuhao Zhang Yu-Wing Tai Chi-Keung Tang DiffM VGen 67 22 0 03 Dec 2023
A New Learning Paradigm for Foundation Model-based Remote Sensing Change Detection Kaiyu Li Xiangyong Cao Deyu Meng 93 67 0 02 Dec 2023
FreeZe: Training-free zero-shot 6D pose estimation with geometric and vision foundation models Andrea Caraffa Davide Boscaini Amir Hamza Fabio Poiesi 152 21 0 01 Dec 2023
Segment Any 3D Gaussians Jiazhong Cen Jiemin Fang Chen Yang Lingxi Xie Xiaopeng Zhang Wei Shen Qi Tian 3DGS 203 81 0 01 Dec 2023
TrafficMOT: A Challenging Dataset for Multi-Object Tracking in Complex Traffic Scenarios Lihao Liu Yanqi Cheng Zhongying Deng Shujun Wang Dongdong Chen Xiaowei Hu Pietro Lio Carola-Bibiane Schönlieb Angelica Aviles-Rivero 106 2 0 30 Nov 2023
TeG-DG: Textually Guided Domain Generalization for Face Anti-Spoofing Lianrui Mu Jianhong Bai Xiaoxuan He Jiangnan Ye Xiaoyu Liang Yuchen Yang Jiedong Zhuang Haoji Hu 100 2 0 30 Nov 2023
Back to 3D: Few-Shot 3D Keypoint Detection with Back-Projected 2D Features Thomas Wimmer Peter Wonka M. Ovsjanikov 121 14 0 29 Nov 2023
Rethinking Image Editing Detection in the Era of Generative AI Revolution Zhihao Sun Haipeng Fang Xinying Zhao Danding Wang Juan Cao 102 10 0 29 Nov 2023
LEOD: Label-Efficient Object Detection for Event Cameras Ziyi Wu Mathias Gehrig Qing Lyu Xudong Liu Igor Gilitschenski 86 18 0 29 Nov 2023
StructRe: Rewriting for Structured Shape Modeling Jiepeng Wang Hao Pan Yang Liu Xin Tong Taku Komura Wenping Wang 135 1 0 29 Nov 2023
GaussianEditor: Editing 3D Gaussians Delicately with Text Instructions Jiemin Fang Junjie Wang Xiaopeng Zhang Lingxi Xie Qi Tian 3DGS DiffM 152 127 0 27 Nov 2023
Automated Measurement of Vascular Calcification in Femoral Endarterectomy Patients Using Deep Learning Alireza Bagheri Rajeoni Breanna Pederson Daniel G. Clair S. Lessner H. Valafar 61 9 0 27 Nov 2023
Mitigating Hallucination in Visual Language Models with Visual Supervision Zhiyang Chen Yousong Zhu Yufei Zhan Zhaowen Li Chaoyang Zhao Jinqiao Wang Ming Tang VLM MLLM 116 37 0 27 Nov 2023
End-to-End Breast Cancer Radiotherapy Planning via LMMs with Consistency Embedding Kwanyoung Kim Y. Oh S. Park H. Byun Joongyo Lee Jin Sung Kim Yong Bae Kim Jong Chul Ye 133 0 0 27 Nov 2023
Obj-NeRF: Extract Object NeRFs from Multi-view Images Zhiyi Li Lihe Ding Tianfan Xue 76 1 0 26 Nov 2023
Griffon: Spelling out All Object Locations at Any Granularity with Large Language Models Yufei Zhan Yousong Zhu Zhiyang Chen Fan Yang E. Goles Jinqiao Wang ObjD 123 18 0 24 Nov 2023
Paragraph-to-Image Generation with Information-Enriched Diffusion Model Weijia Wu Zhuang Li Yefei He Mike Zheng Shou Chunhua Shen Lele Cheng Yan Li Yan Li Di Zhang VLM 246 26 0 24 Nov 2023
A Systematic Review of Deep Learning-based Research on Radiology Report Generation Chang Liu Yuanhe Tian Yan Song MedIm 130 17 0 23 Nov 2023
SegVol: Universal and Interactive Volumetric Medical Image Segmentation Yuxin Du Fan Bai Tiejun Huang Bo Zhao VLM 162 46 0 22 Nov 2023
On the Out of Distribution Robustness of Foundation Models in Medical Image Segmentation D. M. Nguyen Tan Ngoc Pham Nghiem Tuong Diep Nghi Quoc Phan Quang Pham ... Ngan Hoang Le Nhat Ho Pengtao Xie Daniel Sonntag Mathias Niepert VLM UQCV OOD 80 7 0 18 Nov 2023
Zero-Shot Digital Rock Image Segmentation with a Fine-Tuned Segment Anything Model Zhaoyang Ma Xupeng He Shuyu Sun Bicheng Yan Hyung Kwak Jun Gao 62 6 0 17 Nov 2023
Garment Recovery with Shape and Deformation Priors Ren Li Corentin Dumery Benoît Guillard Pascal Fua AI4CE 118 15 0 17 Nov 2023
Simple but Effective Unsupervised Classification for Specified Domain Images: A Case Study on Fungi Images Zhaocong liu Fa Zhang Lin Cheng Huanxi Deng Xiaoyan Yang Zhenyu Zhang Chichun Zhou 59 2 0 15 Nov 2023
Towards Open-Ended Visual Recognition with Large Language Model Qihang Yu Xiaohui Shen Liang-Chieh Chen VLM 84 8 0 14 Nov 2023
Uni-COAL: A Unified Framework for Cross-Modality Synthesis and Super-Resolution of MR Images Zhiyun Song Zengxin Qi Xin Wang Xiangyu Zhao Zhenrong Shen ... DongDong Chen Linlin Yao Qian Wang Xuehai Wu Lichi Zhang MedIm 119 3 0 14 Nov 2023
Evaluating Neighbor Explainability for Graph Neural Networks Oscar Llorente Rana Fawzy Jared Keown Michal Horemuz Péter Vaderna Sándor Laki Roland Kotroczó Rita Csoma János Márk Szalai-Gindl 51 0 0 14 Nov 2023
Processing and Segmentation of Human Teeth from 2D Images using Weakly Supervised Learning Tomáš Kunzo Viktor Kocur Lukás Gajdosech Martin Madaras 124 1 0 13 Nov 2023
RESenv: A Realistic Earthquake Simulation Environment based on Unreal Engine Yitong Sun Hanchun Wang Zhejun Zhang Cyriel Diels Ali Asadipour 27 3 0 13 Nov 2023
3DFusion, A real-time 3D object reconstruction pipeline based on streamed instance segmented data Xi Sun Derek Jacoby Yvonne Coady 59 0 0 11 Nov 2023
Florence-2: Advancing a Unified Representation for a Variety of Vision Tasks Bin Xiao Haiping Wu Weijian Xu Xiyang Dai Houdong Hu Yumao Lu Michael Zeng Ce Liu Lu Yuan VLM 143 196 0 10 Nov 2023
Neural Network Methods for Radiation Detectors and Imaging S. Lin S. Ning H. Zhu T. Zhou C. L. Morris S. Clayton M. Cherukara R. T. Chen Z. Wang AI4CE 75 5 0 09 Nov 2023
LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents Shilong Liu Hao Cheng Haotian Liu Hao Zhang Feng Li ... Hang Su Jun Zhu Lei Zhang Jianfeng Gao Chun-yue Li MLLM VLM 129 130 0 09 Nov 2023
Autonomous Advanced Aerial Mobility -- An End-to-end Autonomy Framework for UAVs and Beyond Sakshi Mishra Praveen Palanisamy 98 17 0 08 Nov 2023
Human as Points: Explicit Point-based 3D Human Reconstruction from Single-view RGB Images Yingzhi Tang Qijian Zhang Xianqiang Lyu Yebin Liu 3DPC 3DH 324 3 0 06 Nov 2023
Visual Analytics for Efficient Image Exploration and User-Guided Image Captioning Yiran Li Junpeng Wang Prince Osei Aboagye Michael Yeh Yan Zheng Liang Wang Wei Zhang Kwan-Liu Ma 98 3 0 02 Nov 2023
DINO-Mix: Enhancing Visual Place Recognition with Foundational Vision Model and Feature Mixing Gaoshuang Huang Yang Zhou Xiaofei Hu Chenglong Zhang Luying Zhao Wenjian Gan Mingbo Hou 55 3 0 01 Nov 2023
Audio-Visual Instance Segmentation Ruohao Guo Yaru Chen Yanyu Qi Wenzhen Yue Dantong Niu ... Wenzhen Yue Ji Shi Qixun Wang Peiliang Zhang Buwen Liang VLM VOS 127 3 0 28 Oct 2023
Fine-Tuning Language Models Using Formal Methods Feedback Yunhao Yang N. Bhatt Tyler Ingebrand William Ward Steven Carr Zhangyang Wang Ufuk Topcu 73 11 0 27 Oct 2023
DocStormer: Revitalizing Multi-Degraded Colored Document Images to Pristine PDF Chaowei Liu Jichun Li Yihua Teng Chaoqun Wang Nuo Xu Jihao Wu Dandan Tu 71 4 0 27 Oct 2023
Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models Tsun-Hsuan Wang Alaa Maalouf Wei Xiao Yutong Ban Alexander Amini Guy Rosman S. Karaman Daniela Rus 78 48 0 26 Oct 2023
Task-driven Prompt Evolution for Foundation Models R. Sathish Rahul Venkataramani K. S. Shriram Prasad Sudhakar MedIm VLM 34 1 0 26 Oct 2023
Prompt-Driven Building Footprint Extraction in Aerial Images with Offset-Building Model Kai Li Yupeng Deng Yun-long Kong Diyou Liu Jingbo Chen Yu Meng Junxian Ma Chenhao Wang 262 1 0 25 Oct 2023
EquivAct: SIM(3)-Equivariant Visuomotor Policies beyond Rigid Object Manipulation Jingyun Yang Congyue Deng Jimmy Wu Rika Antonova Leonidas Guibas Jeannette Bohg LM&Ro 129 39 0 24 Oct 2023
Woodpecker: Hallucination Correction for Multimodal Large Language Models Shukang Yin Chaoyou Fu Sirui Zhao Tong Xu Hao Wang Dianbo Sui Chunjiang Ge Ke Li Xingguo Sun Enhong Chen VLM MLLM 108 142 0 24 Oct 2023
Frozen Transformers in Language Models Are Effective Visual Encoder Layers Ziqi Pang Ziyang Xie Yunze Man Yu-Xiong Wang 150 31 0 19 Oct 2023
Enhancing Plasticity for First Session Adaptation Continual Learning Imad Eddine Marouf Subhankar Roy Enzo Tartaglione Stéphane Lathuilière CLL 120 3 0 17 Oct 2023
Get-A-Sense: Designing Spatial Context Awareness for Mobile AR Environment Understanding Yiqin Zhao Ashkan Ganj Tian Guo 67 0 0 16 Oct 2023
Recursive Segmentation Living Image: An eXplainable AI (XAI) Approach for Computing Structural Beauty of Images or the Livingness of Space Qianxiang Yao Jiang Bin 73 0 0 16 Oct 2023