Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

1 March 2020

Shizhe Chen

Yida Zhao

Qin Jin

Qi Wu

ArXiv PDF HTML

Papers citing "Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning"

50 / 163 papers shown

Title
Exploiting Inter-Sample Correlation and Intra-Sample Redundancy for Partially Relevant Video Retrieval Junlong Ren Gangjian Zhang Yitao Hu Jian Shu Haoran Wang 29 0 0 28 Apr 2025
Hadamard product in deep learning: Introduction, Advances and Challenges Grigorios G. Chrysos Yongtao Wu Razvan Pascanu Philip Torr V. Cevher AAML 98 1 0 17 Apr 2025
Towards Efficient Partially Relevant Video Retrieval with Active Moment Discovering Peipei Song Li Zhang Long Lan Weidong Chen D. Guo Xun Yang Meng Wang 19 0 0 15 Apr 2025
Towards Efficient and Robust Moment Retrieval System: A Unified Framework for Multi-Granularity Models and Temporal Reranking H. Tran Tinh-Anh Nguyen-Nhu Huu-Phong Phan-Nguyen T. Nguyen Nhat-Minh Nguyen-Dich Anh Dao Huy-Duc Do Quan Nguyen Hoang M. Le Quang-Vinh Dinh 29 0 0 11 Apr 2025
SVLTA: Benchmarking Vision-Language Temporal Alignment via Synthetic Video Situation Hao Du Bo Wu Yan Lu Zhendong Mao 29 0 0 08 Apr 2025
TC-MGC: Text-Conditioned Multi-Grained Contrastive Learning for Text-Video Retrieval Xiaolun Jing Genke Yang Jian Chu 31 0 0 07 Apr 2025
Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval Boseung Jeong Jicheol Park Sungyeon Kim Suha Kwak 41 0 0 03 Apr 2025
STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding Zichen Liu Kunlun Xu Bing-Huang Su Xu Zou Yuxin Peng Jiahuan Zhou VLM AI4TS 71 1 0 20 Mar 2025
A Survey of Recent Advances and Challenges in Deep Audio-Visual Correlation Learning Luis Vilaca Yi Yu Paula Vinan 77 0 0 24 Nov 2024
Beyond Coarse-Grained Matching in Video-Text Retrieval Aozhu Chen Hazel Doughty Xirong Li Cees G. M. Snoek 38 0 0 16 Oct 2024
MultiVENT 2.0: A Massive Multilingual Benchmark for Event-Centric Video Retrieval Reno Kriz Kate Sanders David Etter Kenton W. Murray Cameron Carpenter ... Alexander Martin Ronald Colaianni Nolan King Eugene Yang Benjamin Van Durme VGen 45 2 0 15 Oct 2024
TokenBinder: Text-Video Retrieval with One-to-Many Alignment Paradigm Bingqing Zhang Zhuo Cao Heming Du Xin Yu Xue Li Jiajun Liu Sen Wang VGen 30 0 0 30 Sep 2024
Disentangle and denoise: Tackling context misalignment for video moment retrieval Kaijing Ma Han Fang Xianghao Zang Chao Ban Lanxiang Zhou Zhongjiang He Yongxiang Li Hao Sun Zerun Feng Xingsong Hou 60 1 0 14 Aug 2024
COM Kitchens: An Unedited Overhead-view Video Dataset as a Vision-Language Benchmark Koki Maeda Tosho Hirasawa Atsushi Hashimoto Jun Harashima Leszek Rybicki Yusuke Fukasawa Yoshitaka Ushiku 51 0 0 05 Aug 2024
SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses Chaolei Tan Zihang Lin Junfu Pu Zhongang Qi Wei-Yi Pei Zhi Qu Yexin Wang Ying Shan Wei-Shi Zheng Jianfang Hu AI4TS 48 0 0 03 Aug 2024
Local Action-Guided Motion Diffusion Model for Text-to-Motion Generation Peng Jin Hao Li Ze-Long Cheng Kehan Li Runyi Yu Chang-Shu Liu Xiangyang Ji Li-ming Yuan Jie Chen DiffM 45 3 0 15 Jul 2024
Context Propagation from Proposals for Semantic Video Object Segmentation Tinghuai Wang 24 1 0 08 Jul 2024
Graph-Boosted Attentive Network for Semantic Body Parsing T. Wang Huiling Wang 3DH 33 6 0 08 Jul 2024
Non-parametric Contextual Relationship Learning for Semantic Video Object Segmentation T. Wang Huiling Wang 39 1 0 08 Jul 2024
Spectral Graph Reasoning Network for Hyperspectral Image Classification Huiling Wang 33 1 0 02 Jul 2024
Holistically-Nested Structure-Aware Graph Neural Network for Road Extraction Tinghuai Wang Guangming Wang Kuan Eeik Tan 36 0 0 02 Jul 2024
Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment Hao Fei Shengqiong Wu Meishan Zhang Hao Fei Tat-Seng Chua Shuicheng Yan AI4TS 47 40 0 27 Jun 2024
Multi-Scale Temporal Difference Transformer for Video-Text Retrieval Ni Wang Dongliang Liao Xing Xu 38 0 0 23 Jun 2024
RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter Meng Cao Haoran Tang Jinfa Huang Peng Jin Can Zhang Ruyang Liu Long Chen Xiaodan Liang Li-ming Yuan Ge Li 101 11 0 29 May 2024
Text-Video Retrieval with Global-Local Semantic Consistent Learning Haonan Zhang Pengpeng Zeng Lianli Gao Jingkuan Song Yihang Duan Xinyu Lyu Hengtao Shen VLM CLIP 40 2 0 21 May 2024
Spatial Semantic Recurrent Mining for Referring Image Segmentation Jiaxing Yang Lihe Zhang Jiayu Sun Huchuan Lu 29 0 0 15 May 2024
FineParser: A Fine-grained Spatio-temporal Action Parser for Human-centric Action Quality Assessment Jinglin Xu Sibo Yin Guohao Zhao Zishuo Wang Yuxin Peng 23 5 0 11 May 2024
Deep Boosting Learning: A Brand-new Cooperative Approach for Image-Text Matching Haiwen Diao Ying Zhang Shang Gao Xiang Ruan Huchuan Lu 36 3 0 28 Apr 2024
SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval Xuzheng Yu Chen Jiang Xingning Dong Tian Gan Ming Yang Qingpei Guo 45 1 0 22 Apr 2024
Improving Interpretable Embeddings for Ad-hoc Video Search with Generative Captions and Multi-word Concept Bank Jiaxin Wu Chong-Wah Ngo W. Chan VGen 32 1 0 09 Apr 2024
VideoDistill: Language-aware Vision Distillation for Video Question Answering Bo Zou Chao Yang Yu Qiao Chengbin Quan Youjian Zhao VGen 50 1 0 01 Apr 2024
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval Jiamian Wang Guohao Sun Pichao Wang Dongfang Liu S. Dianat Majid Rabbani Raghuveer M. Rao Zhiqiang Tao VGen 59 20 0 26 Mar 2024
VidProM: A Million-scale Real Prompt-Gallery Dataset for Text-to-Video Diffusion Models Wenhao Wang Yi Yang VGen DiffM 33 33 0 10 Mar 2024
Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement Danyang Hou Liang Pang Huawei Shen Xueqi Cheng 37 3 0 21 Feb 2024
Event-aware Video Corpus Moment Retrieval Danyang Hou Liang Pang Huawei Shen Xueqi Cheng 33 1 0 21 Feb 2024
Multi-modal News Understanding with Professionally Labelled Videos (ReutersViLNews) Shih-Han Chou Matthew Kowal Yasmin Niknam Diana Moyano Shayaan Mehdi ... Cheng Zhang Ian Knopke S. Kocak Leonid Sigal Yalda Mohsenzadeh 38 1 0 23 Jan 2024
WAVER: Writing-style Agnostic Text-Video Retrieval via Distilling Vision-Language Models Through Open-Vocabulary Knowledge Huy Le Tung Kieu Anh Nguyen Ngan Le VGen 32 1 0 15 Dec 2023
CL2CM: Improving Cross-Lingual Cross-Modal Retrieval via Cross-Lingual Knowledge Transfer Yabing Wang Fan Wang Jianfeng Dong Hao Luo VLM 32 9 0 14 Dec 2023
RGNet: A Unified Clip Retrieval and Grounding Network for Long Videos Tanveer Hannan Md. Mohaiminul Islam Thomas Seidl Gedas Bertasius 28 3 0 11 Dec 2023
Localized Symbolic Knowledge Distillation for Visual Commonsense Models J. Park Jack Hessel Khyathi Raghavi Chandu Paul Pu Liang Ximing Lu ... Youngjae Yu Qiuyuan Huang Jianfeng Gao Ali Farhadi Yejin Choi VLM 32 11 0 08 Dec 2023
Vision-Language Models Learn Super Images for Efficient Partially Relevant Video Retrieval Taichi Nishimura Shota Nakada Masayoshi Kondo VLM 21 0 0 01 Dec 2023
Visual Commonsense based Heterogeneous Graph Contrastive Learning Zongzhao Li Xiangyu Zhu Xi Zhang Zhaoxiang Zhang Zhen Lei 24 1 0 11 Nov 2023
Act As You Wish: Fine-Grained Control of Motion Diffusion Model with Hierarchical Semantic Graphs Peng Jin Yang Wu Yanbo Fan Zhongqian Sun Yang Wei Li-ming Yuan DiffM 30 28 0 02 Nov 2023
InvGC: Robust Cross-Modal Retrieval by Inverse Graph Convolution Xiangru Jian Yimu Wang 33 4 0 20 Oct 2023
Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and Gallery Banks Yimu Wang Xiangru Jian Bo Xue 22 10 0 17 Oct 2023
GMMFormer: Gaussian-Mixture-Model Based Transformer for Efficient Partially Relevant Video Retrieval Yuting Wang Jinpeng Wang Bin Chen Ziyun Zeng Shu-Tao Xia 46 8 0 08 Oct 2023
Prototype-based Aleatoric Uncertainty Quantification for Cross-modal Retrieval Hao Li Marie-Jeanne Lesot Lianli Gao Xiaosu Zhu Christophe Marsala EDL 16 11 0 29 Sep 2023
Video-adverb retrieval with compositional adverb-action embeddings Thomas Hummel Otniel-Bogdan Mercea A. Sophia Koepke Zeynep Akata 32 1 0 26 Sep 2023
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning Chen Jiang Hong Liu Xuzheng Yu Qing Wang Yuan Cheng ... Zhongyi Liu Qingpei Guo Wei Chu Ming Yang Yuan Qi 29 10 0 20 Sep 2023
Unified Coarse-to-Fine Alignment for Video-Text Retrieval Ziyang Wang Yi-Lin Sung Feng Cheng Gedas Bertasius Joey Tianyi Zhou 101 44 0 18 Sep 2023