Who's Waldo? Linking People Across Text and Images

Who's Waldo? Linking People Across Text and Images

16 August 2021

Claire Yuqing Cui

Apoorv Khandelwal

Hadar Averbuch-Elor

Papers citing "Who's Waldo? Linking People Across Text and Images"

12 / 12 papers shown

Title
SeedLM: Compressing LLM Weights into Seeds of Pseudo-Random Generators Rasoul Shafipour David Harrison Maxwell Horton Jeffrey Marker Houman Bedayat Sachin Mehta Mohammad Rastegari Mahyar Najibi Saman Naderiparizi MQ 51 3 0 14 Oct 2024
Semi-supervised multimodal coreference resolution in image narrations A. Goel Basura Fernando Frank Keller Hakan Bilen 32 3 0 20 Oct 2023
A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models Noriyuki Kojima Hadar Averbuch-Elor Yoav Artzi 21 2 0 06 Sep 2023
Who are you referring to? Coreference resolution in image narrations A. Goel Basura Fernando Frank Keller Hakan Bilen 17 2 0 26 Nov 2022
Weakly Supervised Face Naming with Symmetry-Enhanced Contrastive Loss Tingyu Qu Tinne Tuytelaars Marie-Francine Moens CVBM 13 4 0 17 Oct 2022
What's in a Decade? Transforming Faces Through Time Eric Chen Jin Sun Apoorv Khandelwal Dani Lischinski Noah Snavely Hadar Averbuch-Elor 36 7 0 13 Oct 2022
To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo Yiran Luo Pratyay Banerjee Tejas Gokhale Yezhou Yang Chitta Baral 16 4 0 30 Mar 2022
Whole-Body Human Pose Estimation in the Wild Sheng Jin Lumin Xu Jin Xu Can Wang Wentao Liu Chao Qian Wanli Ouyang Ping Luo 3DH 135 238 0 23 Jul 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning Jiasen Lu Caiming Xiong Devi Parikh R. Socher 85 1,442 0 06 Dec 2016
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,743 0 26 Sep 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 152 1,465 0 06 Jun 2016