Weakly Supervised Attention Learning for Textual Phrases Grounding

Weakly Supervised Attention Learning for Textual Phrases Grounding

1 May 2018

Tianshu Yu

Papers citing "Weakly Supervised Attention Learning for Textual Phrases Grounding"

6 / 6 papers shown

Title
Tragedy Plus Time: Capturing Unintended Human Activities from Weakly-labeled Videos Arnav Chakravarthy Zhiyuan Fang Yezhou Yang 32 2 0 28 Apr 2022
Injecting Semantic Concepts into End-to-End Image Captioning Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lin Liang Zhe Gan Lijuan Wang Yezhou Yang Zicheng Liu ViT VLM 21 86 0 09 Dec 2021
Compressing Visual-linguistic Model via Knowledge Distillation Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lijuan Wang Yezhou Yang Zicheng Liu VLM 39 96 0 05 Apr 2021
Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning Zhiyuan Fang Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang 15 60 0 11 Mar 2020
Range Loss for Deep Face Recognition with Long-tail Xiao Zhang Zhiyuan Fang Yandong Wen Zhifeng Li Yu Qiao CVBM 237 446 0 28 Nov 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 158 1,464 0 06 Jun 2016