Weakly-Supervised Visual-Textual Grounding with Semantic Prior
Refinement

Weakly-Supervised Visual-Textual Grounding with Semantic Prior Refinement

18 May 2023

Luciano Serafini

Lamberto Ballan

Papers citing "Weakly-Supervised Visual-Textual Grounding with Semantic Prior Refinement"

14 / 14 papers shown

Title
Entity-enhanced Adaptive Reconstruction Network for Weakly Supervised Referring Expression Grounding Xuejing Liu Liang Li Shuhui Wang Zhengjun Zha Dechao Meng Qi Tian Qingming Huang 70 62 0 18 Jul 2022
RegionCLIP: Region-based Language-Image Pretraining Yiwu Zhong Jianwei Yang Pengchuan Zhang Chunyuan Li Noel Codella ... Luowei Zhou Xiyang Dai Lu Yuan Yin Li Jianfeng Gao VLM CLIP 130 575 0 16 Dec 2021
Grounded Language-Image Pre-training Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li ... Lu Yuan Lei Zhang Lei Li Kai-Wei Chang Jianfeng Gao ObjD VLM 120 1,061 0 07 Dec 2021
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding Aishwarya Kamath Mannat Singh Yann LeCun Gabriel Synnaeve Ishan Misra Nicolas Carion ObjD VLM 167 881 0 26 Apr 2021
Relation-aware Instance Refinement for Weakly Supervised Visual Grounding Yongfei Liu Bo Wan Lin Ma Xuming He ObjD 74 56 0 24 Mar 2021
Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation Liwei Wang Jing-ling Huang Yin Li Kun Xu Zhengyuan Yang Dong Yu ObjD 56 82 0 03 Jul 2020
Contrastive Learning for Weakly Supervised Phrase Grounding Tanmay Gupta Arash Vahdat Gal Chechik Xiaodong Yang Jan Kautz Derek Hoiem ObjD SSL 107 142 0 17 Jun 2020
Phrase Localization Without Paired Training Examples Josiah Wang Lucia Specia 60 43 0 20 Aug 2019
Align2Ground: Weakly Supervised Phrase Grounding Guided by Image-Caption Alignment Samyak Datta Karan Sikka Anirban Roy Karuna Ahuja Devi Parikh Ajay Divakaran 53 104 0 27 Mar 2019
Grounding Referring Expressions in Images by Variational Context Hanwang Zhang Yulei Niu Shih-Fu Chang BDL ObjD 53 220 0 05 Dec 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 121 4,215 0 25 Jul 2017
Grounding of Textual Phrases in Images by Reconstruction Anna Rohrbach Marcus Rohrbach Ronghang Hu Trevor Darrell Bernt Schiele 75 497 0 12 Nov 2015
Spatial Transformer Networks Max Jaderberg Karen Simonyan Andrew Zisserman Koray Kavukcuoglu 297 7,384 0 05 Jun 2015
Flickr30k Entities: Collecting Region-to-Phrase Correspondences for Richer Image-to-Sentence Models Bryan A. Plummer Liwei Wang Christopher M. Cervantes Juan C. Caicedo Julia Hockenmaier Svetlana Lazebnik 193 2,056 0 19 May 2015