Contrastive Learning for Weakly Supervised Phrase Grounding

17 June 2020

Papers citing "Contrastive Learning for Weakly Supervised Phrase Grounding"

33 / 33 papers shown

Title
3DWG: 3D Weakly Supervised Visual Grounding via Category and Instance-Level Alignment Xianrui Li Jing Liu Nuowei Han Liang Heng Y. Guo Hao Dong Yang Liu 71 0 0 03 May 2025
Referring to Any Person Qing Jiang Lin Wu Zhaoyang Zeng Tianhe Ren Yuda Xiong Yihao Chen Qin Liu Lei Zhang 172 0 0 11 Mar 2025
Pre-Training Multimodal Hallucination Detectors with Corrupted Grounding Data Spencer Whitehead Jacob Phillips Sean Hendryx 31 0 0 30 Aug 2024
Rethinking Image-to-Video Adaptation: An Object-centric Perspective Rui Qian Shuangrui Ding Dahua Lin OCL 52 1 0 09 Jul 2024
How to Understand "Support"? An Implicit-enhanced Causal Inference Approach for Weakly-supervised Phrase Grounding Jiamin Luo Jianing Zhao Jingjing Wang Guodong Zhou 46 0 0 29 Feb 2024
POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images Antonín Vobecký Oriane Siméoni David Hurych Spyros Gidaris Andrei Bursuc Patrick Pérez Josef Sivic 40 33 0 17 Jan 2024
Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment Xiaoxu Xu Yitian Yuan Qiudan Zhang Wen-Bin Wu Zequn Jie Lin Ma Xu Wang 61 4 0 15 Dec 2023
RCA-NOC: Relative Contrastive Alignment for Novel Object Captioning Jiashuo Fan Yaoyuan Liang Leyao Liu Shao-Lun Huang Lei Zhang 30 2 0 11 Dec 2023
Object Recognition as Next Token Prediction Kaiyu Yue Borchun Chen Jonas Geiping Hengduo Li Tom Goldstein Ser-Nam Lim 40 9 0 04 Dec 2023
A Joint Study of Phrase Grounding and Task Performance in Vision and Language Models Noriyuki Kojima Hadar Averbuch-Elor Yoav Artzi 26 2 0 06 Sep 2023
Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP Qihang Yu Ju He XueQing Deng Xiaohui Shen Liang-Chieh Chen VLM CLIP 45 136 0 04 Aug 2023
Trade-offs in Fine-tuned Diffusion Models Between Accuracy and Interpretability Mischa Dombrowski Hadrien Reynaud Johanna P. Müller Matthew Baugh Bernhard Kainz MedIm 24 6 0 31 Mar 2023
Using Multiple Instance Learning to Build Multimodal Representations Peiqi Wang W. Wells Seth Berkowitz Steven Horng Polina Golland SSL 24 6 0 11 Dec 2022
Who are you referring to? Coreference resolution in image narrations A. Goel Basura Fernando Frank Keller Hakan Bilen 25 2 0 26 Nov 2022
Belief Revision based Caption Re-ranker with Visual Semantic Information Ahmed Sabir Francesc Moreno-Noguer Pranava Madhyastha Lluís Padró BDL 29 2 0 16 Sep 2022
Integrating Object-aware and Interaction-aware Knowledge for Weakly Supervised Scene Graph Generation Xingchen Li Long Chen Wenbo Ma Yi Yang Jun Xiao 18 26 0 03 Aug 2022
Curriculum Learning for Data-Efficient Vision-Language Alignment Tejas Srinivasan Xiang Ren Jesse Thomason VLM 31 7 0 29 Jul 2022
Weakly-supervised segmentation of referring expressions Robin Strudel Ivan Laptev Cordelia Schmid 22 21 0 10 May 2022
To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo Yiran Luo Pratyay Banerjee Tejas Gokhale Yezhou Yang Chitta Baral 27 4 0 30 Mar 2022
Unsupervised Vision-Language Parsing: Seamlessly Bridging Visual Scene Graphs with Language Structures via Dependency Relationships Chao Lou Wenjuan Han Yuh-Chen Lin Zilong Zheng CoGe 23 10 0 27 Mar 2022
Pseudo-Q: Generating Pseudo Language Queries for Visual Grounding Haojun Jiang Yuanze Lin Dongchen Han Shiji Song Gao Huang ObjD 40 50 0 16 Mar 2022
GroupViT: Semantic Segmentation Emerges from Text Supervision Jiarui Xu Shalini De Mello Sifei Liu Wonmin Byeon Thomas Breuel Jan Kautz Xinyu Wang ViT VLM 192 501 0 22 Feb 2022
Unpaired Referring Expression Grounding via Bidirectional Cross-Modal Matching Hengcan Shi Munawar Hayat Jianfei Cai ObjD 20 10 0 18 Jan 2022
Scaling Open-Vocabulary Image Segmentation with Image-Level Labels Golnaz Ghiasi Xiuye Gu Huayu Chen Nayeon Lee VLM 38 371 0 22 Dec 2021
Extending CLIP for Category-to-image Retrieval in E-commerce Mariya Hendriksen Maurits J. R. Bleeker Svitlana Vakulenko Nanne van Noord E. Kuiper Maarten de Rijke VLM 11 30 0 21 Dec 2021
Weakly-Supervised Video Object Grounding via Causal Intervention Wei Wang Junyu Gao Changsheng Xu CML 30 20 0 01 Dec 2021
Learning to Generate Scene Graph from Natural Language Supervision Yiwu Zhong Jing Shi Jianwei Yang Chenliang Xu Yin Li SSL 42 77 0 06 Sep 2021
Probing Image-Language Transformers for Verb Understanding Lisa Anne Hendricks Aida Nematzadeh 27 114 0 16 Jun 2021
Domain Adaptation for Semantic Segmentation via Patch-Wise Contrastive Learning Weizhe Liu David Ferstl S. Schulter L. Zebedin Pascal Fua C. Leistner 94 38 0 22 Apr 2021
Relation-aware Instance Refinement for Weakly Supervised Visual Grounding Yongfei Liu Bo Wan Lin Ma Xuming He ObjD 24 55 0 24 Mar 2021
Contrastive Learning of Medical Visual Representations from Paired Images and Text Yuhao Zhang Hang Jiang Yasuhide Miura Christopher D. Manning C. Langlotz MedIm 32 731 0 02 Oct 2020
Learning Object Detection from Captions via Textual Scene Attributes Achiya Jerbi Roei Herzig Jonathan Berant Gal Chechik Amir Globerson 27 21 0 30 Sep 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019