Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

1 March 2020

Shizhe Chen

Yida Zhao

Qin Jin

Qi Wu

ArXiv PDF HTML

Papers citing "Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning"

50 / 163 papers shown

Title
Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal Intervention Burak Satar Huaiyu Zhu Hanwang Zhang Joo-Hwee Lim CML 45 0 0 17 Sep 2023
In-Style: Bridging Text and Uncurated Videos with Style Transfer for Text-Video Retrieval Nina Shvetsova Anna Kukleva Bernt Schiele Hilde Kuehne DiffM 33 3 0 16 Sep 2023
Dual-view Curricular Optimal Transport for Cross-lingual Cross-modal Retrieval Yabing Wang Shuhui Wang Hao Luo Jianfeng Dong F. Wang Meng Han Xun Wang Meng Wang 27 9 0 11 Sep 2023
Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval Chaorui Deng Qi Chen Pengda Qin Dave Zhenyu Chen Qi Wu VLM CLIP 46 29 0 15 Aug 2023
TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval Kaibin Tian Rui Zhao Hu Hu Runquan Xie Fengzong Lian Zhanhui Kang Xirong Li CLIP 27 0 0 02 Aug 2023
Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment Sarah Ibrahimi Xiaohang Sun Pichao Wang Amanmeet Garg Ashutosh Sanan Mohamed Omar 46 14 0 24 Jul 2023
Learning Discriminative Visual-Text Representation for Polyp Re-Identification Suncheng Xiang Can Liu Sijia Du Xiaobo Li 34 1 0 20 Jul 2023
No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention and Zoom-in Boundary Detection Qi Zhang S. Zheng Qin Jin 29 1 0 20 Jul 2023
Fine-grained Text-Video Retrieval with Frozen Image Encoders Zuozhuo Dai Fang Shao Qingkun Su Zilong Dong Siyu Zhu 167 1 0 14 Jul 2023
Complementary Frequency-Varying Awareness Network for Open-Set Fine-Grained Image Recognition Qiulei Dong Hong Wang Qiulei Dong 25 0 0 14 Jul 2023
UniUD Submission to the EPIC-Kitchens-100 Multi-Instance Retrieval Challenge 2023 Alex Falcon Giuseppe Serra 31 0 0 27 Jun 2023
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model Sihan Chen Xingjian He Handong Li Xiaojie Jin Jiashi Feng Qingbin Liu VLM CLIP 30 8 0 15 Jun 2023
Coping with Change: Learning Invariant and Minimum Sufficient Representations for Fine-Grained Visual Categorization Shuo Ye Shujian Yu W. Hou Yu Wang Xinge You OOD 31 10 0 08 Jun 2023
An Overview of Challenges in Egocentric Text-Video Retrieval Burak Satar Huaiyu Zhu Hanwang Zhang J. Lim EgoV 43 1 0 07 Jun 2023
MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning Jianghui Wang Yuxuan Wang Dongyan Zhao Zilong Zheng 46 1 0 04 Jun 2023
MS-DETR: Natural Language Video Localization with Sampling Moment-Moment Interaction J. Wang Aixin Sun Hao Zhang Xiaoli Li ViT 21 13 0 30 May 2023
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Sihan Chen Handong Li Qunbo Wang Zijia Zhao Ming-Ting Sun Xinxin Zhu Qingbin Liu 40 97 0 29 May 2023
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment Peng Jin Hao Li Ze-Long Cheng Jinfa Huang Zhennan Wang Li-ming Yuan Chang-rui Liu Jie Chen 38 32 0 20 May 2023
Hierarchical Aligned Multimodal Learning for NER on Tweet Posts Peipei Liu Hong Li Yimo Ren Jie Liu Shuaizong Si Hongsong Zhu Limin Sun 31 2 0 15 May 2023
Mask to reconstruct: Cooperative Semantics Completion for Video-text Retrieval Han Fang Zhifei Yang Xianghao Zang Chao Ban Hao Sun VGen 34 2 0 13 May 2023
A Review of Deep Learning for Video Captioning Moloud Abdar Meenakshi Kollati Swaraja Kuraparthi Farhad Pourpanah Daniel J. McDuff ... Shuicheng Yan Abduallah A. Mohamed Abbas Khosravi Min Zhang Fatih Porikli 3DV 45 21 0 22 Apr 2023
Verbs in Action: Improving verb understanding in video-language models Liliane Momeni Mathilde Caron Arsha Nagrani Andrew Zisserman Cordelia Schmid 37 70 0 13 Apr 2023
GLT-T++: Global-Local Transformer for 3D Siamese Tracking with Ranking Loss Jiahao Nie Zhiwei He Yuxiang Yang Xudong Lv Mingchen Gao Jing Zhang ViT 3DPC 41 7 0 01 Apr 2023
Learning Action Changes by Measuring Verb-Adverb Textual Relationships Davide Moltisanti Frank Keller Hakan Bilen Laura Sevilla-Lara 36 7 0 27 Mar 2023
Video-Text as Game Players: Hierarchical Banzhaf Interaction for Cross-Modal Representation Learning Peng Jin Jinfa Huang Pengfei Xiong Shangxuan Tian Chang-rui Liu Xiang Ji Li-ming Yuan Jie Chen 47 50 0 25 Mar 2023
Plug-and-Play Regulators for Image-Text Matching Haiwen Diao Wenjie Qu Wen Liu Xiang Ruan Huchuan Lu 35 20 0 23 Mar 2023
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model Peng Jin Hao Li Ze-Long Cheng Kehan Li Xiang Ji Chang-rui Liu Li-ming Yuan Jie Chen DiffM VGen 28 54 0 17 Mar 2023
Accommodating Audio Modality in CLIP for Multimodal Processing Ludan Ruan Anwen Hu Yuqing Song Liang Zhang S. Zheng Qin Jin VLM 29 10 0 12 Mar 2023
Improving Video Retrieval by Adaptive Margin Feng He Qi Wang Zhifan Feng Wenbin Jiang Yajuan Lü Yong Zhu Xiao Tan 88 20 0 09 Mar 2023
Selectively Hard Negative Mining for Alleviating Gradient Vanishing in Image-Text Matching Zheng Li Caili Guo Xin Eric Wang Zerun Feng Zhongtian Du VLM 20 4 0 01 Mar 2023
Deep Learning for Video-Text Retrieval: a Review Cunjuan Zhu Qi Jia Wei Chen Yanming Guo Yu Liu 24 14 0 24 Feb 2023
Kernel function impact on convolutional neural networks M. Amine Mahmoudi A. Chetouani Fatma Boufera Hedi Tabia FAtt 21 4 0 20 Feb 2023
Multi-video Moment Ranking with Multimodal Clue Danyang Hou Liang Pang Yanyan Lan Huawei Shen Xueqi Cheng 21 0 0 29 Jan 2023
Variational Cross-Graph Reasoning and Adaptive Structured Semantics Learning for Compositional Temporal Grounding Juncheng Li Siliang Tang Linchao Zhu Wenqiao Zhang Yi Yang Tat-Seng Chua Fei Wu Yueting Zhuang BDL 24 14 0 22 Jan 2023
Transfer Knowledge from Natural Language to Electrocardiography: Can We Detect Cardiovascular Disease Through Language Models? Jielin Qiu William Jongwon Han Jiacheng Zhu Mengdi Xu Michael A. Rosenberg Emerson Liu Douglas Weber Ding Zhao 44 21 0 21 Jan 2023
UATVR: Uncertainty-Adaptive Text-Video Retrieval Bo Fang Wenhao Wu Chang-rui Liu Yu Zhou Yuxin Song Weiping Wang Min Yang Xiang Ji Jingdong Wang 26 46 0 16 Jan 2023
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training Qinghao Ye Guohai Xu Ming Yan Haiyang Xu Qi Qian Ji Zhang Fei Huang VLM AI4TS 188 69 0 30 Dec 2022
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners Shen Yan Tao Zhu Zirui Wang Yuan Cao Mi Zhang Soham Ghosh Yonghui Wu Jiahui Yu VLM VGen 34 46 0 09 Dec 2022
Improving Cross-Modal Retrieval with Set of Diverse Embeddings Dongwon Kim Nam-Won Kim Suha Kwak 26 37 0 30 Nov 2022
ComCLIP: Training-Free Compositional Image and Text Matching Kenan Jiang Xuehai He Ruize Xu Junfeng Fang VLM CLIP CoGe 22 20 0 25 Nov 2022
Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval Damianos Galanopoulos Vasileios Mezaris 21 7 0 21 Nov 2022
Cross-Modal Adapter for Text-Video Retrieval Haojun Jiang Jianke Zhang Rui Huang Chunjiang Ge Zanlin Ni Jiwen Lu Jie Zhou S. Song Gao Huang 53 36 0 17 Nov 2022
CLOP: Video-and-Language Pre-Training with Knowledge Regularizations Guohao Li Hu Yang Feng He Zhifan Feng Yajuan Lyu Hua Wu Haifeng Wang VLM 21 1 0 07 Nov 2022
Efficient Cross-Modal Video Retrieval with Meta-Optimized Frames Ning Han Xun Yang Ee-Peng Lim Hao Chen Qianru Sun 51 3 0 16 Oct 2022
Semantics-Consistent Cross-domain Summarization via Optimal Transport Alignment Jielin Qiu Jiacheng Zhu Mengdi Xu Franck Dernoncourt Trung Bui Zhaowen Wang Bo-wen Li Ding Zhao Hailin Jin 43 11 0 10 Oct 2022
ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval A. Fragomeni Michael Wray Dima Damen CLIP ViT 25 3 0 09 Oct 2022
Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval Che-Hsien Lin Ancong Wu Junwei Liang Jun Zhang Wenhang Ge Wei Zheng Chunhua Shen 94 21 0 27 Sep 2022
A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective Chaoqi Chen Yushuang Wu Qiyuan Dai Hong-Yu Zhou Mutian Xu Sibei Yang Xiaoguang Han Yizhou Yu ViT MedIm AI4CE 27 74 0 27 Sep 2022
LGDN: Language-Guided Denoising Network for Video-Language Modeling Haoyu Lu Mingyu Ding Nanyi Fei Yuqi Huo Zhiwu Lu VLM 91 16 0 23 Sep 2022
Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning Yabing Wang Jianfeng Dong Tianxiang Liang Minsong Zhang Rui Cai Xun Wang 29 20 0 26 Aug 2022