Title
First Place Solution to the ECCV 2024 BRAVO Challenge: Evaluating Robustness of Vision Foundation Models for Semantic Segmentation Tommie Kerssies Daan de Geus Gijs Dubbelman 77 2 0 25 Sep 2024
DALDA: Data Augmentation Leveraging Diffusion Model and LLM with Adaptive Guidance Scaling Kyuheon Jung Yongdeuk Seo Seongwoo Cho Jaeyoung Kim Hyun-seok Min Sungchul Choi 26 0 0 25 Sep 2024
FLaRe: Achieving Masterful and Adaptive Robot Policies with Large-Scale Reinforcement Learning Fine-Tuning Jiaheng Hu Rose Hendrix Ali Farhadi Aniruddha Kembhavi Roberto Martín-Martín Peter Stone Kuo-Hao Zeng Kiana Ehsani 53 7 0 25 Sep 2024
PANOS: Payload-Aware Navigation in Offroad Scenarios Kartikeya Singh Yash Turkar Christo Aluckal Charuvarahan Adhivarahan Karthik Dantu 31 0 0 25 Sep 2024
GeoBiked: A Dataset with Geometric Features and Automated Labeling Techniques to Enable Deep Generative Models in Engineering Design Phillip Mueller Sebastian Mueller Lars Mikelsons 33 1 0 25 Sep 2024
Robust Scene Change Detection Using Visual Foundation Models and Cross-Attention Mechanisms Chun-Jung Lin Sourav Garg Tat-Jun Chin Feras Dayoub 44 1 0 25 Sep 2024
Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models A. Popov Alperen Degirmenci David Wehr Shashank Hegde Ryan Oldja ... David Nistér Urs Muller Ruchi Bhargava Stan Birchfield Nikolai Smolyanskiy 83 9 0 25 Sep 2024
Compressed Depth Map Super-Resolution and Restoration: AIM 2024 Challenge Results Marcos V. Conde Florin-Alexandru Vasluianu Jinhui Xiong Wei Ye Rakesh Ranjan Radu Timofte SupR MDE 39 7 0 24 Sep 2024
MM-CamObj: A Comprehensive Multimodal Dataset for Camouflaged Object Scenarios Jiacheng Ruan Wenzhen Yuan Zehao Lin Ning Liao Zhiyu Li Feiyu Xiong Ting Liu Yuzhuo Fu 51 5 0 24 Sep 2024
RTAGrasp: Learning Task-Oriented Grasping from Human Videos via Retrieval, Transfer, and Alignment Wenlong Dong Dehao Huang Jiangshan Liu Chao Tang Hong Zhang 47 3 0 24 Sep 2024
Disentangled Generation and Aggregation for Robust Radiance Fields Shihe Shen Huachen Gao Wangze Xu Rui Peng Luyang Tang K. Xiong Jianbo Jiao Ronggang Wang 40 0 0 24 Sep 2024
SDFit: 3D Object Pose and Shape by Fitting a Morphable SDF to a Single Image Dimitrije Antić Sai Kumar Dwivedi Shashank Tripathi Theo Gevers Dimitrios Tzionas Dimitrios Tzionas 55 2 0 24 Sep 2024
OW-Rep: Open World Object Detection with Instance Representation Learning Sunoh Lee Minsik Jeon Jihong Min Junwon Seo ObjD 251 0 0 24 Sep 2024
Adapting Segment Anything Model for Unseen Object Instance Segmentation Rui Cao Chuanxin Song Biqi Yang Jiangliu Wang Pheng-Ann Heng Yun-Hui Liu VLM 38 1 0 23 Sep 2024
The BRAVO Semantic Segmentation Challenge Results in UNCV2024 Tuan-Hung Vu Eduardo Valle Andrei Bursuc Tommie Kerssies Daan de Geus ... Michael J. Smith F. Ferrie Shamik Basu Daniel Gehrig Luc Van Gool UQCV VLM 43 3 0 23 Sep 2024
Exploring Fine-grained Retail Product Discrimination with Zero-shot Object Classification Using Vision-Language Models Anil Osman Tur Alessandro Conti Cigdem Beyan Davide Boscaini Roberto Larcher S. Messelodi Fabio Poiesi Elisa Ricci VLM 39 0 0 23 Sep 2024
Hierarchical end-to-end autonomous navigation through few-shot waypoint detection A. Ghafourian Zhongying CuiZhu Debo Shi Ian Chuang François Charette Rithik Sachdeva Iman Soltani 45 1 0 23 Sep 2024
ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models Sombit Dey Jan-Nico Zaech Nikolay Nikolov Luc Van Gool Danda Pani Paudel MoMe VLM 61 4 0 23 Sep 2024
GroupDiff: Diffusion-based Group Portrait Editing Yuming Jiang Nanxuan Zhao Qing Liu Krishna Kumar Singh Shuai Yang Chen Change Loy Ziwei Liu DiffM 41 1 0 22 Sep 2024
Efficient and Discriminative Image Feature Extraction for Universal Image Retrieval Morris Florek David Tschirschwitz Björn Barz Volker Rodehorst VLM 38 0 0 20 Sep 2024
HMD^2: Environment-aware Motion Generation from Single Egocentric Head-Mounted Device Vladimir Guzov Yifeng Jiang Fangzhou Hong Gerard Pons-Moll Richard Newcombe C. Karen Liu Yuting Ye Lingni Ma 40 5 0 20 Sep 2024
MEXMA: Token-level objectives improve sentence representations Joao Maria Janeiro Benjamin Piwowarski Patrick Gallinari Loïc Barrault 36 1 0 19 Sep 2024
Is Tokenization Needed for Masked Particle Modelling? Matthew Leigh Samuel Klein François Charton Tobias Golling Lukas Heinrich Michael Kagan Ines Ochoa Margarita Osadchy 43 7 0 19 Sep 2024
3DTopia-XL: Scaling High-quality 3D Asset Generation via Primitive Diffusion Zhaoxi Chen Jiaxiang Tang Yuhao Dong Ziang Cao Fangzhou Hong ... Tong Wu Shunsuke Saito Liang Pan Dahua Lin Ziwei Liu 53 17 0 19 Sep 2024
VLATest: Testing and Evaluating Vision-Language-Action Models for Robotic Manipulation Zhijie Wang Zhehua Zhou Jiayang Song Yuheng Huang Zhan Shu Lei Ma LM&Ro 80 5 0 19 Sep 2024
GauTOAO: Gaussian-based Task-Oriented Affordance of Objects Jiawen Wang Dingsheng Luo 46 0 0 18 Sep 2024
Cross-Organ and Cross-Scanner Adenocarcinoma Segmentation using Rein to Fine-tune Vision Foundation Models Pengzhou Cai Xueyuan Zhang Libin Lan Ze Zhao 35 0 0 18 Sep 2024
Towards Global Localization using Multi-Modal Object-Instance Re-Identification Aneesh Chavan Vaibhav Agrawal Vineeth Bhat Sarthak Chittawar Siddharth Srivastava Chetan Arora K. M. Krishna 95 0 0 18 Sep 2024
IMRL: Integrating Visual, Physical, Temporal, and Geometric Representations for Enhanced Food Acquisition Rui Liu Zahiruddin Mahammad Amisha Bhaskar Pratap Tokekar 42 1 0 18 Sep 2024
Depth-based Privileged Information for Boosting 3D Human Pose Estimation on RGB Alessandro Simoni Francesco Marchetti Guido Borghi Federico Becattini Davide Davoli Lorenzo Garattoni Gianpiero Francesca Lorenzo Seidenari R. Vezzani 3DH MDE 39 0 0 17 Sep 2024
AMEGO: Active Memory from long EGOcentric videos Gabriele Goletto Tushar Nagarajan Giuseppe Averta Dima Damen EgoV 50 5 0 17 Sep 2024
OSV: One Step is Enough for High-Quality Image to Video Generation Xiaofeng Mao Zhengkai Jiang Fu-Yun Wang Wenbing Zhu Hao Chen Mingmin Chi Yabiao Wang Wenhan Luo DiffM VGen 80 8 0 17 Sep 2024
Fine-Tuning Image-Conditional Diffusion Models is Easier than You Think Gonzalo Martin Garcia Karim Abou Zeid Christian Schmidt Daan de Geus Alexander Hermans Bastian Leibe 44 25 0 17 Sep 2024
Online Learning via Memory: Retrieval-Augmented Detector Adaptation Yanan Jian Fuxun Yu Qi Zhang William Levine Brandon Dubbs Nikolaos Karianakis ObjD CLL 23 0 0 16 Sep 2024
Playground v3: Improving Text-to-Image Alignment with Deep-Fusion Large Language Models Bingchen Liu Ehsan Akhgari Alexander Visheratin Aleks Kamko Linmiao Xu Shivam Shrirao Joao Souza Suhail Doshi Daiqing Li Daiqing Li DiffM MLLM 36 48 0 16 Sep 2024
Robust Bird's Eye View Segmentation by Adapting DINOv2 Merve Rabia Barın Görkay Aydemir Fatma Guney 42 2 0 16 Sep 2024
ViewActive: Active viewpoint optimization from a single image Jiayi Wu Xiaomin Lin Botao He Cornelia Fermuller Yiannis Aloimonos 31 0 0 16 Sep 2024
Towards Real-Time Generation of Delay-Compensated Video Feeds for Outdoor Mobile Robot Teleoperation Neeloy Chakraborty Yixiao Fang Andre Schreiber Tianchen Ji Zhe Huang Aganze Mihigo Cassidy Wall Abdulrahman Almana Katherine Driggs-Campbell 40 0 0 16 Sep 2024
Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning Amin Karimi Monsefi Mengxi Zhou Nastaran Karimi Monsefi Ser-Nam Lim Wei-Lun Chao R. Ramnath 55 1 0 16 Sep 2024
Robust image representations with counterfactual contrastive learning Mélanie Roschewitz Fabio De Sousa Ribeiro Tian Xia G. Khara Ben Glocker OOD MedIm 56 2 0 16 Sep 2024
One missing piece in Vision and Language: A Survey on Comics Understanding Emanuele Vivoli Andrey Barsky Mohamed Ali Souibgui Artemis LLabres Marco Bertini Dimosthenis Karatzas 47 4 0 14 Sep 2024
Evaluating Pre-trained Convolutional Neural Networks and Foundation Models as Feature Extractors for Content-based Medical Image Retrieval Amirreza Mahbod Nematollah Saeidi Sepideh Hatamikia Ramona Woitek VLM MedIm 31 2 0 14 Sep 2024
ClearDepth: Enhanced Stereo Perception of Transparent Objects for Robotic Manipulation Kaixin Bai Huajian Zeng Lei Zhang Yiwen Liu Hongli Xu Zhaopeng Chen Jianwei Zhang 45 1 0 13 Sep 2024
Detect Fake with Fake: Leveraging Synthetic Data-driven Representation for Synthetic Image Detection Hina Otake Yoshihiro Fukuhara Yoshiki Kubotani Shigeo Morishima ViT 66 0 0 13 Sep 2024
Autoregressive Sequence Modeling for 3D Medical Image Representation Siwen Wang Churan Wang Fei Gao Lixian Su Fandong Zhang Yizhou Wang Yizhou Yu MedIm 31 1 0 13 Sep 2024
Anytime Continual Learning for Open Vocabulary Classification Zhen Zhu Yiming Gong Derek Hoiem VLM 47 1 0 13 Sep 2024
Towards Unified Facial Action Unit Recognition Framework by Large Language Models Guohong Hu Xing Lan Hanyu Jiang Jiayi Lyu Jian Xue CVBM 26 1 0 13 Sep 2024
GroundingBooth: Grounding Text-to-Image Customization Zhexiao Xiong Wei Xiong Jing Shi He Zhang Yizhi Song Nathan Jacobs DiffM 64 6 0 13 Sep 2024
DeCLIP: Decoding CLIP representations for deepfake localization Stefan Smeu Elisabeta Oneata Dan Oneaţă 70 4 0 12 Sep 2024
TextBoost: Towards One-Shot Personalization of Text-to-Image Models via Fine-tuning Text Encoder NaHyeon Park Kunhee Kim Hyunjung Shim DiffM 52 2 1 12 Sep 2024