v1v2 (latest)

What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding without Text Inputs

19 June 2022

Tal Shaharabany

Yoad Tewel

Lior Wolf

ObjD

ArXiv (abs)PDF HTML Github (24★)

Papers citing "What is Where by Looking: Weakly-Supervised Open-World Phrase-Grounding without Text Inputs"

50 / 72 papers shown

Title
Auto-Vocabulary Semantic Segmentation Osman Ülger Maksymilian Kulicki Yuki M. Asano Martin R. Oswald VLM 125 2 0 07 Dec 2023
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 549 4,409 0 28 Jan 2022
Grounded Language-Image Pre-training Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li ... Lu Yuan Lei Zhang Lei Li Kai-Wei Chang Jianfeng Gao ObjD VLM 129 1,066 0 07 Dec 2021
Text2Mesh: Text-Driven Neural Stylization for Meshes O. Michel Roi Bar-On Richard Liu Sagie Benaim Rana Hanocka CLIP AI4CE 267 361 0 06 Dec 2021
FuseDream: Training-Free Text-to-Image Generation with Improved CLIP+GAN Space Optimization Xingchao Liu Chengyue Gong Lemeng Wu Shujian Zhang Haoran Su Qiang Liu CLIP 77 91 0 02 Dec 2021
Background Activation Suppression for Weakly Supervised Object Localization Ping Wu Wei Zhai Yang Cao WSOL 58 52 0 01 Dec 2021
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf VLM 84 195 0 29 Nov 2021
Learning a Weight Map for Weakly-Supervised Localization Tal Shaharabany Lior Wolf WSOL SSL 86 1 0 28 Nov 2021
ClipCap: CLIP Prefix for Image Captioning Ron Mokady Amir Hertz Amit H. Bermano CLIP VLM 71 680 0 18 Nov 2021
Image-Based CLIP-Guided Essence Transfer Hila Chefer Sagie Benaim Roni Paiss Lior Wolf CLIP 71 50 0 24 Oct 2021
A Good Prompt Is Worth Millions of Parameters: Low-resource Prompt-based Learning for Vision-Language Models Woojeong Jin Yu Cheng Yelong Shen Weizhu Chen Xiang Ren VLM VPVLM MLLM 104 137 0 16 Oct 2021
Mind the Gap: Domain Gap Control for Single Shot Domain Adaptation for Generative Adversarial Networks Peihao Zhu Rameen Abdal John C. Femiani Peter Wonka GAN 207 81 0 15 Oct 2021
CLIP4Caption: CLIP for Video Caption Mingkang Tang Zhanyu Wang Zhenhua Liu Fengyun Rao Dian Li Xiu Li CLIP VLM 72 154 0 13 Oct 2021
Online Refinement of Low-level Feature Based Activation Map for Weakly Supervised Object Localization Jinheng Xie Cheng Luo Xiangping Zhu Ziqi Jin Weizeng Lu Linlin Shen WSOL 54 55 0 12 Oct 2021
CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models Yuan Yao Ao Zhang Zhengyan Zhang Zhiyuan Liu Tat-Seng Chua Maosong Sun MLLM VPVLM VLM 281 224 0 24 Sep 2021
Learning to Prompt for Vision-Language Models Kaiyang Zhou Jingkang Yang Chen Change Loy Ziwei Liu VPVLM CLIP VLM 502 2,409 0 02 Sep 2021
SimVLM: Simple Visual Language Model Pretraining with Weak Supervision Zirui Wang Jiahui Yu Adams Wei Yu Zihang Dai Yulia Tsvetkov Yuan Cao VLM MLLM 136 800 0 24 Aug 2021
Shallow Feature Matters for Weakly Supervised Object Localization Junhang Wei Qin Wang Zhen Li Sheng Wang S.Kevin Zhou Shuguang Cui WSOL 60 89 0 02 Aug 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 182 889 0 26 Apr 2021
Detector-Free Weakly Supervised Grounding by Separation Assaf Arbelle Sivan Doveh Amit Alfassy J. Shtok Guy Lev ... Kate Saenko S. Ullman Raja Giryes Rogerio Feris Leonid Karlinsky 64 24 0 20 Apr 2021
OpenGAN: Open-Set Recognition via Open Data Generation Shu Kong Deva Ramanan 82 219 0 07 Apr 2021
StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery Or Patashnik Zongze Wu Eli Shechtman Daniel Cohen-Or Dani Lischinski CLIP VLM 129 1,209 0 31 Mar 2021
Generic Attention-model Explainability for Interpreting Bi-Modal and Encoder-Decoder Transformers Hila Chefer Shir Gur Lior Wolf ViT 64 320 0 29 Mar 2021
Unveiling the Potential of Structure Preserving for Weakly Supervised Object Localization Xingjia Pan Yingguo Gao Zhiwen Lin Fan Tang Weiming Dong Haolei Yuan Feiyue Huang Changsheng Xu WSOL 65 87 0 08 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 967 29,810 0 26 Feb 2021
Generating images from caption and vice versa via CLIP-Guided Generative Latent Space Search Federico A. Galatolo M. G. Cimino G. Vaglini VLM 143 87 0 02 Feb 2021
Transformer Interpretability Beyond Attention Visualization Hila Chefer Shir Gur Lior Wolf 137 673 0 17 Dec 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 670 41,430 0 22 Oct 2020
Inter-Image Communication for Weakly Supervised Localization Xiaolin Zhang Yunchao Wei Yi Yang WSOL 59 109 0 12 Aug 2020
Geometry Constrained Weakly Supervised Object Localization Weizeng Lu Xi Jia Weicheng Xie Linlin Shen Yicong Zhou Jinming Duan 43 85 0 19 Jul 2020
Quantifying Attention Flow in Transformers Samira Abnar Willem H. Zuidema 167 802 0 02 May 2020
X-Linear Attention Networks for Image Captioning Yingwei Pan Ting Yao Yehao Li Tao Mei 116 513 0 31 Mar 2020
Rethinking the Route Towards Weakly Supervised Object Localization Chen-Da Liu-Zhang Yunhao Cao Jianxin Wu WSOL 56 100 0 26 Feb 2020
Evaluating Weakly Supervised Object Localization Methods Right Junsuk Choe Seong Joon Oh Seungho Lee Sanghyuk Chun Zeynep Akata Hyunjung Shim WSOL 358 189 0 21 Jan 2020
Rethinking Softmax with Cross-Entropy: Neural Network Classifier as Mutual Information Estimator Zhenyue Qin Dongwoo Kim Tom Gedeon SSL 47 50 0 25 Nov 2019
HarDNet: A Low Memory Traffic Network P. Chao Chao-Yang Kao Yunxing Ruan Chien-Hsiang Huang Y. Lin 234 270 0 03 Sep 2019
Attention-based Dropout Layer for Weakly Supervised Object Localization Junsuk Choe Hyunjung Shim WSOL 116 367 0 27 Aug 2019
Classification-Reconstruction Learning for Open-Set Recognition Ryota Yoshihashi Wen Shao Rei Kawakami Shaodi You M. Iida T. Naemura BDL 61 328 0 11 Dec 2018
Multi-level Multimodal Common Semantic Space for Image-Phrase Grounding Hassan Akbari Svebor Karaman Surabhi Bhargava Brian Chen Carl Vondrick Shih-Fu Chang 55 83 0 28 Nov 2018
Adversarial Complementary Learning for Weakly Supervised Object Localization Xiaolin Zhang Yunchao Wei Jiashi Feng Yi Yang Thomas Huang WSOL 144 575 0 19 Apr 2018
Learning Unsupervised Visual Grounding Through Semantic Self-Supervision Syed Ashar Javed Shreyas Saxena Vineet Gandhi SSL 47 25 0 17 Mar 2018
High-Order Attention Models for Visual Question Answering Idan Schwartz Alex Schwing Tamir Hazan 57 102 0 12 Nov 2017
Query-guided Regression Network with Context Policy for Phrase Grounding Kan Chen Rama Kovvuri Ram Nevatia 68 142 0 04 Aug 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 730 132,363 0 12 Jun 2017
A Unified Approach to Interpreting Model Predictions Scott M. Lundberg Su-In Lee FAtt 1.1K 22,002 0 22 May 2017
Weakly-supervised Visual Grounding of Phrases with Linguistic Structures Fanyi Xiao Leonid Sigal Yong Jae Lee 66 139 0 03 May 2017
MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications Andrew G. Howard Menglong Zhu Bo Chen Dmitry Kalenichenko Weijun Wang Tobias Weyand M. Andreetto Hartwig Adam 3DH 1.2K 20,880 0 17 Apr 2017
Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization Krishna Kumar Singh Yong Jae Lee 87 682 0 13 Apr 2017
Object Region Mining with Adversarial Erasing: A Simple Classification to Semantic Segmentation Approach Yunchao Wei Jiashi Feng Xiaodan Liang Ming-Ming Cheng Yao-Min Zhao Shuicheng Yan 87 811 0 24 Mar 2017
Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization Ramprasaath R. Selvaraju Michael Cogswell Abhishek Das Ramakrishna Vedantam Devi Parikh Dhruv Batra FAtt 321 20,070 0 07 Oct 2016