Title
Leveraging Semantic Cues from Foundation Vision Models for Enhanced Local Feature Correspondence Felipe Cadar Guilherme A. Potje Renato Martins Cédric Demonceaux Erickson R. Nascimento FedML 44 0 0 12 Oct 2024
Towards Multi-Modal Animal Pose Estimation: A Survey and In-Depth Analysis Qianyi Deng Oishi Deb Amir Patel Christian Rupprecht Philip Torr Niki Trigoni Andrew Markham 54 0 0 12 Oct 2024
When Graph meets Multimodal: Benchmarking and Meditating on Multimodal Attributed Graphs Learning Hao Yan C. Li Zhigang Yu Jun Yin Ruochen Liu Peiyan Zhang Weihao Han Mingzheng Li Zhengxin Zeng 36 0 0 11 Oct 2024
A Framework to Enable Algorithmic Design Choice Exploration in DNNs Timothy L. Cronin IV Sanmukh Kuppannagari 56 0 0 10 Oct 2024
Emerging Pixel Grounding in Large Multimodal Models Without Grounding Supervision Shengcao Cao Liang-Yan Gui Yu-Xiong Wang 52 3 0 10 Oct 2024
HybridBooth: Hybrid Prompt Inversion for Efficient Subject-Driven Generation Shanyan Guan Yanhao Ge Ying Tai Jian Yang Wei Li Mingyu You DiffM 34 1 0 10 Oct 2024
RayEmb: Arbitrary Landmark Detection in X-Ray Images Using Ray Embedding Subspace Pragyan Shrestha Chun Xie Yuichi Yoshii I. Kitahara 41 1 0 10 Oct 2024
Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction Jarrid Rector-Brooks Mohsin Hasan Zhangzhi Peng Zachary Quinn Chenghao Liu ... Michael Bronstein Yoshua Bengio Pranam Chatterjee Alexander Tong Avishek Joey Bose DiffM 55 7 0 10 Oct 2024
Learning to Generate Diverse Pedestrian Movements from Web Videos with Noisy Labels Zhizheng Liu Joe Lin Wayne Wu Bolei Zhou VGen 247 0 0 10 Oct 2024
SPA: 3D Spatial-Awareness Enables Effective Embodied Representation Haoyi Zhu Honghui Yang Yating Wang Jiange Yang Limin Wang Tong He 3DH 58 6 0 10 Oct 2024
Towards Synergistic, Generalized, and Efficient Dual-System for Robotic Manipulation Qingwen Bu Hongyang Li Li Chen Jisong Cai Jia Zeng Heming Cui Maoqing Yao Yu Qiao 60 4 0 10 Oct 2024
3D Vision-Language Gaussian Splatting Qucheng Peng Benjamin Planche Zhongpai Gao Meng Zheng Anwesa Choudhuri Terrence Chen Cen Chen Ziyan Wu 3DGS 49 4 0 10 Oct 2024
Generalizing Segmentation Foundation Model Under Sim-to-real Domain-shift for Guidewire Segmentation in X-ray Fluoroscopy Yuxuan Wen Evgenia Roussinova Olivier Brina Paolo Machi Mohamed Bouri OOD MedIm 28 1 0 09 Oct 2024
Surgical Depth Anything: Depth Estimation for Surgical Scenes using Foundation Models Ange Lou Yamin Li Yike Zhang Jack Noble MedIm 38 4 0 09 Oct 2024
Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate Qidong Huang Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Jiaqi Wang Dahua Lin Weiming Zhang Nenghai Yu 57 6 0 09 Oct 2024
AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation Yukang Cao Liang Pan Kai Han Kwan-Yee K. Wong Ziwei Liu VGen 43 6 0 09 Oct 2024
InstructG2I: Synthesizing Images from Multimodal Attributed Graphs Bowen Jin Ziqi Pang Bingjun Guo Yu-Xiong Wang Jiaxuan You Jiawei Han DiffM 54 1 0 09 Oct 2024
Towards Generalisable Time Series Understanding Across Domains Özgün Turgut Philip Muller M. Menten Daniel Rueckert AI4TS 56 1 0 09 Oct 2024
Jointly Generating Multi-view Consistent PBR Textures using Collaborative Control Shimon Vainer Konstantin Kutsy Dante De Nigris Ciara Rowles Slava Elizarov Simon Donné DiffM 68 1 0 09 Oct 2024
Bridge the Points: Graph-based Few-shot Segment Anything Semantically Anqi Zhang Guangyu Gao Jianbo Jiao C. Liu Yunchao Wei VLM 38 4 0 09 Oct 2024
Evaluating Computational Pathology Foundation Models for Prostate Cancer Grading under Distribution Shifts Fredrik K. Gustafsson Mattias Rantalainen OOD MedIm 39 0 0 09 Oct 2024
Towards Natural Image Matting in the Wild via Real-Scenario Prior Ruihao Xia Yu Liang Peng-Tao Jiang Hao Zhang Qianru Sun Yang Tang Bo Li Pan Zhou 30 0 0 09 Oct 2024
InstantIR: Blind Image Restoration with Instant Generative Reference Jen-Yuan Huang Haofan Wang Qixun Wang Xu Bai Hao Ai Peng-Fei Xing Jen-tse Huang 30 1 0 09 Oct 2024
Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers Stephen Hausler Peyman Moghadam SSL ViT 43 3 0 09 Oct 2024
Parameter Efficient Fine-tuning via Explained Variance Adaptation Fabian Paischer Lukas Hauzenberger Thomas Schmied Benedikt Alkin Marc Peter Deisenroth Sepp Hochreiter 42 4 0 09 Oct 2024
Representation Alignment for Generation: Training Diffusion Transformers Is Easier Than You Think Sihyun Yu Sangkyung Kwak Huiwon Jang Jongheon Jeong Jonathan Huang Jinwoo Shin Saining Xie OCL 78 69 0 09 Oct 2024
BEVLoc: Cross-View Localization and Matching via Birds-Eye-View Synthesis Christopher Klammer Michael Kaess 43 0 0 08 Oct 2024
Unveiling the Backbone-Optimizer Coupling Bias in Visual Representation Learning Siyuan Li Juanxi Tian Zedong Wang Luyuan Zhang Zicheng Liu Weiyang Jin Yang Liu Baigui Sun Stan Z. Li 39 0 0 08 Oct 2024
Context-Aware Command Understanding for Tabletop Scenarios Paul Gajewski Antonio Galiza Cerdeira Gonzalez B. Indurkhya LM&Ro 18 0 0 08 Oct 2024
HiSplat: Hierarchical 3D Gaussian Splatting for Generalizable Sparse-View Reconstruction Shengji Tang Weicai Ye Peng Ye Weihao Lin Yang Zhou Tao Chen Wanli Ouyang 3DGS 31 8 0 08 Oct 2024
Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models Michael Kirchhof James Thornton Pierre Ablin Louis Béthune Eugène Ndiaye Marco Cuturi 59 2 0 08 Oct 2024
NegMerge: Consensual Weight Negation for Strong Machine Unlearning Hyoseo Kim Dongyoon Han Junsuk Choe MoMe MU 41 1 0 08 Oct 2024
Generative Portrait Shadow Removal Jae Shin Yoon Zhixin Shu Mengwei Ren Xuaner Zhang Yannick Hold-Geoffroy Krishna Kumar Singh He Zhang DiffM 36 1 0 07 Oct 2024
Brain Mapping with Dense Features: Grounding Cortical Semantic Selectivity in Natural Images With Vision Transformers Andrew F. Luo Jacob Yeung Rushikesh Zawar Shaurya Dewan Margaret M. Henderson Leila Wehbe Michael J. Tarr 39 4 0 07 Oct 2024
MARs: Multi-view Attention Regularizations for Patch-based Feature Recognition of Space Terrain Timothy Chase Jr Karthik Dantu 33 0 0 07 Oct 2024
PhotoReg: Photometrically Registering 3D Gaussian Splatting Models Ziwen Yuan Tianyi Zhang Matthew Johnson-Roberson Weiming Zhi 3DGS 34 2 0 07 Oct 2024
Detecting and Approximating Redundant Computational Blocks in Neural Networks Irene Cannistraci Emanuele Rodolà Bastian Rieck 41 0 0 07 Oct 2024
OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction Leheng Li Weichao Qiu Xu Yan Jing He Kaiqiang Zhou Yingjie Cai Qing Lian Bingbing Liu Ying-Cong Chen SyDa DiffM 49 1 0 07 Oct 2024
A Simple Image Segmentation Framework via In-Context Examples Yang Liu Chenchen Jing Hengtao Li Muzhi Zhu Hao Chen Xinlong Wang Chunhua Shen 49 7 0 07 Oct 2024
Improving Image Clustering with Artifacts Attenuation via Inference-Time Attention Engineering Kazumoto Nakamura Yuji Nozawa Yu-Chieh Lin K. Nakata Youyang Ng ViT 37 1 0 07 Oct 2024
Analysis of Hybrid Compositions in Animation Film with Weakly Supervised Learning Mónica Apellaniz Portos Roberto Labadie-Tamayo Claudius Stemmler Erwin Feyersinger Andreas Babic Franziska Bruckner Vrääth Öhner Matthias Zeppelzauer 34 0 0 07 Oct 2024
Organizing Unstructured Image Collections using Natural Language Mingxuan Liu Zhun Zhong Jun Li Gianni Franchi Subhankar Roy Elisa Ricci VLM 52 3 0 07 Oct 2024
Control-oriented Clustering of Visual Latent Representation Han Qi Haocheng Yin Heng Yang SSL 66 2 0 07 Oct 2024
On the Adversarial Risk of Test Time Adaptation: An Investigation into Realistic Test-Time Data Poisoning Yongyi Su Yushu Li Nanqing Liu Kui Jia Xulei Yang Chuan-Sheng Foo Xun Xu TTA AAML 61 1 0 07 Oct 2024
Image Watermarks are Removable Using Controllable Regeneration from Clean Noise Yepeng Liu Yiren Song Hai Ci Yu Zhang Haofan Wang Mike Zheng Shou Yuheng Bu WIGM 69 3 0 07 Oct 2024
AutoLoRA: AutoGuidance Meets Low-Rank Adaptation for Diffusion Models Artur Kasymov Marcin Sendera Michał Stypułkowski Maciej Ziȩba Przemysław Spurek 40 1 0 04 Oct 2024
VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning Han Lin Tushar Nagarajan Nicolas Ballas Mido Assran Mojtaba Komeili Joey Tianyi Zhou Koustuv Sinha AI4TS 65 3 0 04 Oct 2024
Dessie: Disentanglement for Articulated 3D Horse Shape and Pose Estimation from Images Ci Li Yi Yang Zehang Weng Elin Hernlund Silvia Zuffi Hedvig Kjellström 36 3 0 04 Oct 2024
Img2CAD: Conditioned 3D CAD Model Generation from Single Image with Structured Visual Geometry Tianrun Chen Chunan Yu Yuanqi Hu Jing Li Tao Xu ... Lanyun Zhu Ying Zang Yong Zhang Ziyue Li Linyun Sun 41 9 0 04 Oct 2024
An X-Ray Is Worth 15 Features: Sparse Autoencoders for Interpretable Radiology Report Generation Ahmed Abdulaal Hugo Fry Nina Montaña-Brown Ayodeji Ijishakin Jack Gao Stephanie L. Hyland Daniel C. Alexander Daniel Coelho De Castro MedIm 44 8 0 04 Oct 2024