Title
Visual Recognition by Request Chufeng Tang Lingxi Xie Xiaopeng Zhang Xiaolin Hu Qi Tian VLM 99 15 0 28 Jul 2022
Careful What You Wish For: on the Extraction of Adversarially Trained Models Kacem Khaled Gabriela Nicolescu F. Magalhães MIACV AAML 78 4 0 21 Jul 2022
On Label Granularity and Object Localization Elijah Cole Kimberly Wilber Grant Van Horn Xuan S. Yang Marco Fornoni Pietro Perona Serge Belongie Andrew G. Howard Oisin Mac Aodha WSOL 84 13 0 20 Jul 2022
DataPerf: Benchmarks for Data-Centric AI Development Mark Mazumder Colby R. Banbury Xiaozhe Yao Bojan Karlavs W. G. Rojas ... Carole-Jean Wu Cody Coleman Andrew Y. Ng Peter Mattson Vijay Janapa Reddi VLM 87 105 0 20 Jul 2022
Robust Object Detection With Inaccurate Bounding Boxes Chengxin Liu Kewei Wang Hao Lu Zhiguo Cao Ziming Zhang 87 25 0 20 Jul 2022
Cycle Self-Training for Semi-Supervised Object Detection with Distribution Consistency Reweighting Hao Liu Bin Chen Bo Wang Chunpeng Wu Feng Dai Peng Wu 53 8 0 12 Jul 2022
IDEA: Increasing Text Diversity via Online Multi-Label Recognition for Vision-Language Pre-training Xinyu Huang Youcai Zhang Ying Cheng Weiwei Tian Ruiwei Zhao Rui Feng Yuejie Zhang Yaqian Li Yandong Guo Xiao-Yong Zhang VLM 86 14 0 12 Jul 2022
Bridging the Gap between Object and Image-level Representations for Open-Vocabulary Detection H. Rasheed Muhammad Maaz Muhammad Uzair Khattak Salman Khan Fahad Shahbaz Khan ObjD VLM 160 155 0 07 Jul 2022
Image Amodal Completion: A Survey Jiayang Ao Qiuhong Ke Krista A. Ehinger 130 17 0 05 Jul 2022
Deep Learning Models on CPUs: A Methodology for Efficient Training Quchen Fu Ramesh Chukka Keith Achorn Thomas Atta-fosu Deepak R. Canchi Zhongwei Teng Jules White Douglas C. Schmidt 56 2 0 20 Jun 2022
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations Ximeng Sun Ping Hu Kate Saenko VLM 105 126 0 20 Jun 2022
All Mistakes Are Not Equal: Comprehensive Hierarchy Aware Multi-label Predictions (CHAMP) A. Vaswani Gaurav Aggarwal Praneeth Netrapalli N. Hegde 77 4 0 17 Jun 2022
It's Time for Artistic Correspondence in Music and Video Dídac Surís Carl Vondrick Bryan C. Russell Justin Salamon 64 37 0 14 Jun 2022
ProcTHOR: Large-Scale Embodied AI Using Procedural Generation Matt Deitke Eli VanderBilt Alvaro Herrasti Luca Weihs Jordi Salvador ... Winson Han Eric Kolve Ali Farhadi Aniruddha Kembhavi Roozbeh Mottaghi LM&Ro 129 265 0 14 Jun 2022
Discovering Object Masks with Transformers for Unsupervised Semantic Segmentation Wouter Van Gansbeke Simon Vandenhende Luc Van Gool 109 55 0 13 Jun 2022
A Semantic Consistency Feature Alignment Object Detection Model Based on Mixed-Class Distribution Metrics Lijun Gou Jinrong Yang Hangchen Yu Pan Wang Xiaoping Li Chao Deng 36 2 0 12 Jun 2022
A Survey on Long-Tailed Visual Recognition Lu Yang He Jiang Q. Song Jun Guo 93 135 0 27 May 2022
Perceptual Learned Source-Channel Coding for High-Fidelity Image Semantic Transmission Jun Wang Sixian Wang Jincheng Dai Zhongwei Si Dekun Zhou K. Niu 65 32 0 26 May 2022
Charon: a FrameNet Annotation Tool for Multimodal Corpora Frederico Belcavello Marcelo Viridiano E. Matos Tiago Timponi Torrent 27 6 0 24 May 2022
Deep Image Retrieval is not Robust to Label Noise Stanislav Dereka I. Karpukhin Sergey Kolesnikov NoLa VLM 74 2 0 23 May 2022
The Case for Perspective in Multimodal Datasets Marcelo Viridiano Tiago Timponi Torrent Oliver Czulo Arthur Lorenzi E. Matos Frederico Belcavello 39 6 0 22 May 2022
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners Zhenhailong Wang Manling Li Ruochen Xu Luowei Zhou Jie Lei ... Chenguang Zhu Derek Hoiem Shih-Fu Chang Joey Tianyi Zhou Heng Ji MLLM VLM 227 142 0 22 May 2022
Simple Open-Vocabulary Object Detection with Vision Transformers Matthias Minderer A. Gritsenko Austin Stone Maxim Neumann Dirk Weissenborn ... Zhuoran Shen Tianlin Li Xiaohua Zhai Thomas Kipf N. Houlsby ObjD CLIP VLM ViT OCL 100 314 0 12 May 2022
Deep Learning and Computer Vision Techniques for Microcirculation Analysis: A Review Maged Abdalla Helmy Abdou T. Truong E. Jul Paulo Ferreira 100 8 0 11 May 2022
Beyond Bounding Box: Multimodal Knowledge Learning for Object Detection Wei Feng Xingyuan Bu Chenchen Zhang Xubin Li VLM 43 4 0 09 May 2022
RU-Net: Regularized Unrolling Network for Scene Graph Generation Xin Lin Changxing Ding Jing Zhang Yibing Zhan Dacheng Tao 81 34 0 03 May 2022
Seeing without Looking: Analysis Pipeline for Child Sexual Abuse Datasets Camila Laranjeira João Macedo Sandra Avila J. A. dos Santos 68 19 0 29 Apr 2022
Improving Multimodal Speech Recognition by Data Augmentation and Speech Representations Dan Oneaţă H. Cucu 51 19 0 27 Apr 2022
Training and challenging models for text-guided fashion image retrieval Eric Dodds Jack Culpepper Gaurav Srivastava 70 9 0 23 Apr 2022
Fast AdvProp Jieru Mei Yucheng Han Yutong Bai Yixiao Zhang Yingwei Li Xianhang Li Alan Yuille Cihang Xie AAML 85 8 0 21 Apr 2022
A Tour of Visualization Techniques for Computer Vision Datasets B. Alsallakh P. Bhattacharya V. Feng Narine Kokhlikyan Orion Reblitz-Richardson Rahul Rajan David Yan 49 3 0 19 Apr 2022
ReCLIP: A Strong Zero-Shot Baseline for Referring Expression Comprehension Sanjay Subramanian William Merrill Trevor Darrell Matt Gardner Sameer Singh Anna Rohrbach ObjD 114 128 0 12 Apr 2022
Pre-train, Self-train, Distill: A simple recipe for Supersizing 3D Reconstruction Kalyan Vasudev Alwala Abhinav Gupta Shubham Tulsiani 95 31 0 07 Apr 2022
ECCV Caption: Correcting False Negatives by Collecting Machine-and-Human-verified Image-Caption Associations for MS-COCO Sanghyuk Chun Wonjae Kim Song Park Minsuk Chang Seong Joon Oh VLM 570 46 0 07 Apr 2022
"This is my unicorn, Fluffy": Personalizing frozen vision-language representations Niv Cohen Rinon Gal E. Meirom Gal Chechik Yuval Atzmon VLM MLLM 130 88 0 04 Apr 2022
How stable are Transferability Metrics evaluations? A. Agostinelli Michal Pándy J. Uijlings Thomas Mensink V. Ferrari 127 24 0 04 Apr 2022
Data Cards: Purposeful and Transparent Dataset Documentation for Responsible AI Mahima Pushkarna Andrew Zaldivar Oddur Kjartansson AI4TS 117 223 0 03 Apr 2022
Socratic Models: Composing Zero-Shot Multimodal Reasoning with Language Andy Zeng Maria Attarian Brian Ichter K. Choromanski Adrian S. Wong ... Michael S. Ryoo Vikas Sindhwani Johnny Lee Vincent Vanhoucke Peter R. Florence ReLM LRM 189 589 0 01 Apr 2022
Acknowledging the Unknown for Multi-label Learning with Single Positive Labels Donghao Zhou Pengfei Chen Qiong Wang Guangyong Chen Pheng-Ann Heng 70 31 0 30 Mar 2022
Learning Program Representations for Food Images and Cooking Recipes Dim P. Papadopoulos Enrique Mora Nadiia Chepurko Kuan-Wei Huang Ferda Ofli Antonio Torralba 68 33 0 30 Mar 2022
Image Retrieval from Contextual Descriptions Benno Krojer Vaibhav Adlakha Vibhav Vineet Yash Goyal Edoardo Ponti Siva Reddy 89 32 0 29 Mar 2022
Towards End-to-End Unified Scene Text Detection and Layout Analysis Shangbang Long Siyang Qin Dmitry Panteleev Alessandro Bissacco Yasuhisa Fujii Michalis Raptis 97 97 0 28 Mar 2022
BigDetection: A Large-scale Benchmark for Improved Object Detector Pre-training Likun Cai Zhi-Li Zhang Yi Zhu Li Zhang Mu Li Xiangyang Xue VLM ObjD 119 41 0 24 Mar 2022
UNIMO-2: End-to-End Unified Vision-Language Grounded Learning Wei Li Can Gao Guocheng Niu Xinyan Xiao Hao Liu Jiachen Liu Hua Wu Haifeng Wang MLLM 51 22 0 17 Mar 2022
Bamboo: Building Mega-Scale Vision Dataset Continually with Human-Machine Synergy Yuanhan Zhang Qi Sun Yichun Zhou Zexin He Zhen-fei Yin Kunze Wang Lu Sheng Yu Qiao Jing Shao Ziwei Liu ObjD VLM 108 19 0 15 Mar 2022
CLIP Models are Few-shot Learners: Empirical Studies on VQA and Visual Entailment Haoyu Song Li Dong Weinan Zhang Ting Liu Furu Wei VLM CLIP 108 139 0 14 Mar 2022
Spatial Consistency Loss for Training Multi-Label Classifiers from Single-Label Annotations Thomas Verelst Paul Kishan Rubenstein M. Eichner Tinne Tuytelaars Maxim Berman 85 20 0 11 Mar 2022
Synopses of Movie Narratives: a Video-Language Dataset for Story Understanding Yidan Sun Qin Chao Yangfeng Ji Boyang Albert Li VGen 81 11 0 11 Mar 2022
Weakly Supervised Semantic Segmentation using Out-of-Distribution Data Jungbeom Lee Seong Joon Oh Sangdoo Yun Junsuk Choe Eunji Kim Sung-Hoon Yoon WSOL OOD 540 88 0 08 Mar 2022
Towards Unbiased Multi-label Zero-Shot Learning with Pyramid and Semantic Attention Ziming Liu Song Guo Jingcai Guo Yuanyuan Xu Fushuo Huo 122 23 0 07 Mar 2022