X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval

15 July 2022

Ji Zhang

Papers citing "X-CLIP: End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval"

50 / 168 papers shown

Title
Sound of Story: Multi-modal Storytelling with Audio Jaeyeon Bae Seokhoon Jeong Seokun Kang Namgi Han Jae-Yon Lee Hyounghun Kim Taehwan Kim 26 2 0 30 Oct 2023
TESTA: Temporal-Spatial Token Aggregation for Long-form Video-Language Understanding Shuhuai Ren Sishuo Chen Shicheng Li Xu Sun Lu Hou ViT 43 28 0 29 Oct 2023
Semi-Supervised Panoptic Narrative Grounding Danni Yang Jiayi Ji Xiaoshuai Sun Haowei Wang Yinan Li Yiwei Ma Rongrong Ji 27 5 0 27 Oct 2023
EmoCLIP: A Vision-Language Method for Zero-Shot Video Facial Expression Recognition Niki Maria Foteinopoulou Ioannis Patras VLM 19 16 0 25 Oct 2023
InvGC: Robust Cross-Modal Retrieval by Inverse Graph Convolution Xiangru Jian Yimu Wang 27 4 0 20 Oct 2023
Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and Gallery Banks Yimu Wang Xiangru Jian Bo Xue 22 9 0 17 Oct 2023
ProtoHPE: Prototype-guided High-frequency Patch Enhancement for Visible-Infrared Person Re-identification Gui-Xu Zhang Yongfei Zhang Zichang Tan 27 10 0 11 Oct 2023
Dual-Modal Attention-Enhanced Text-Video Retrieval with Triplet Partial Margin Contrastive Learning Chen Jiang Hong Liu Xuzheng Yu Qing Wang Yuan Cheng ... Zhongyi Liu Qingpei Guo Wei Chu Ming Yang Yuan Qi 29 10 0 20 Sep 2023
Unified Coarse-to-Fine Alignment for Video-Text Retrieval Ziyang Wang Yi-Lin Sung Feng Cheng Gedas Bertasius Joey Tianyi Zhou 101 44 0 18 Sep 2023
DePT: Decoupled Prompt Tuning Ji Zhang Shihan Wu Lianli Gao Hengtao Shen Jingkuan Song VLM 32 27 0 14 Sep 2023
3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation Changli Wu Yiwei Ma Qi Chen Haowei Wang Gen Luo Jiayi Ji Xiaoshuai Sun 3DV 36 19 0 31 Aug 2023
CLIPTrans: Transferring Visual Knowledge with Pre-trained Models for Multimodal Machine Translation Devaansh Gupta Siddhant Kharbanda Jiawei Zhou Wanhua Li Hanspeter Pfister D. Wei VLM 36 9 0 29 Aug 2023
CoVR: Learning Composed Video Retrieval from Web Video Captions Lucas Ventura Antoine Yang Cordelia Schmid Gül Varol 22 21 0 28 Aug 2023
Simple Baselines for Interactive Video Retrieval with Questions and Answers Kaiqu Liang Samuel Albanie 24 2 0 21 Aug 2023
Prompt Switch: Efficient CLIP Adaptation for Text-Video Retrieval Chaorui Deng Qi Chen Pengda Qin Dave Zhenyu Chen Qi Wu VLM CLIP 46 29 0 15 Aug 2023
Cross-Domain Product Representation Learning for Rich-Content E-Commerce Xuehan Bai Yan Li Yong Cheng Wenjie Yang Quanming Chen Han Li 19 3 0 10 Aug 2023
Pseudo-label Alignment for Semi-supervised Instance Segmentation Jie Hu Cheng Chen Liujuan Cao Shengchuan Zhang Annan Shu Guannan Jiang Rongrong Ji ISeg 38 13 0 10 Aug 2023
LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation Leigang Qu Shengqiong Wu Hao Fei Liqiang Nie Tat-Seng Chua LM&Ro DiffM MLLM 35 88 0 09 Aug 2023
Beyond First Impressions: Integrating Joint Multi-modal Cues for Comprehensive 3D Representation Haowei Wang Jiji Tang Jiayi Ji Xiaoshuai Sun Rongsheng Zhang ... Minda Zhao Lincheng Li zeng zhao Tangjie Lv Rongrong Ji 3DV 23 13 0 06 Aug 2023
TeachCLIP: Multi-Grained Teaching for Efficient Text-to-Video Retrieval Kaibin Tian Rui Zhao Hu Hu Runquan Xie Fengzong Lian Zhanhui Kang Xirong Li CLIP 27 0 0 02 Aug 2023
Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment Sarah Ibrahimi Xiaohang Sun Pichao Wang Amanmeet Garg Ashutosh Sanan Mohamed Omar 46 14 0 24 Jul 2023
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model Peng Wu Jing Liu Xiangteng He Yuxin Peng Peng Wang Yanning Zhang 48 30 0 24 Jul 2023
Fine-grained Text-Video Retrieval with Frozen Image Encoders Zuozhuo Dai Fang Shao Qingkun Su Zilong Dong Siyu Zhu 167 1 0 14 Jul 2023
TVPR: Text-to-Video Person Retrieval and a New Benchmark Fan Ni Xu Zhang Jianhui Wu Guan-Nan Dong Aichun Zhu Hui Liu Yue Zhang 48 0 0 14 Jul 2023
ICSVR: Investigating Compositional and Syntactic Understanding in Video Retrieval Models Avinash Madasu Vasudev Lal CoGe 42 3 0 28 Jun 2023
MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian Willy Fitra Hendria 29 2 0 20 Jun 2023
Meta-Personalizing Vision-Language Models to Find Named Instances in Video Chun-Hsiao Yeh Bryan C. Russell Josef Sivic Fabian Caba Heilbron Simon Jenni VLM MLLM 46 9 0 16 Jun 2023
COSA: Concatenated Sample Pretrained Vision-Language Foundation Model Sihan Chen Xingjian He Handong Li Xiaojie Jin Jiashi Feng Jiaheng Liu VLM CLIP 30 8 0 15 Jun 2023
Generating Language Corrections for Teaching Physical Control Tasks Megha Srivastava Noah D. Goodman Dorsa Sadigh 28 5 0 12 Jun 2023
Learning to Ground Instructional Articles in Videos through Narrations E. Mavroudi Triantafyllos Afouras Lorenzo Torresani DiffM 35 22 0 06 Jun 2023
VAST: A Vision-Audio-Subtitle-Text Omni-Modality Foundation Model and Dataset Sihan Chen Handong Li Qunbo Wang Zijia Zhao Ming-Ting Sun Xinxin Zhu Jiaheng Liu 32 97 0 29 May 2023
VLAB: Enhancing Video Language Pre-training by Feature Adapting and Blending Xingjian He Sihan Chen Fan Ma Zhicheng Huang Xiaojie Jin Zikang Liu Dongmei Fu Yi Yang Jiaheng Liu Jiashi Feng VLM CLIP 23 17 0 22 May 2023
DiffAVA: Personalized Text-to-Audio Generation with Visual Alignment Shentong Mo Jing Shi Yapeng Tian 20 17 0 22 May 2023
Mask to reconstruct: Cooperative Semantics Completion for Video-text Retrieval Han Fang Zhifei Yang Xianghao Zang Chao Ban Hao Sun VGen 34 2 0 13 May 2023
Self-Chained Image-Language Model for Video Localization and Question Answering Shoubin Yu Jaemin Cho Prateek Yadav Joey Tianyi Zhou 54 129 0 11 May 2023
VALOR: Vision-Audio-Language Omni-Perception Pretraining Model and Dataset Sihan Chen Xingjian He Longteng Guo Xinxin Zhu Weining Wang Jinhui Tang Jinhui Tang VLM 31 102 0 17 Apr 2023
VicTR: Video-conditioned Text Representations for Activity Recognition Kumara Kahatapitiya Anurag Arnab Arsha Nagrani Michael S. Ryoo 36 19 0 05 Apr 2023
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding Yuanhao Xiong Long Zhao Boqing Gong Ming-Hsuan Yang Florian Schroff Ting Liu Cho-Jui Hsieh Liangzhe Yuan VLM 32 0 0 28 Mar 2023
X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic Textual Guidance Yiwei Ma Xiaioqing Zhang Xiaoshuai Sun Jiayi Ji Haowei Wang Guannan Jiang Weilin Zhuang Rongrong Ji 23 39 0 28 Mar 2023
Video Pre-trained Transformer: A Multimodal Mixture of Pre-trained Experts Kastan Day D. Christl Rohan Salvi Pranav Sriram ViT 27 1 0 24 Mar 2023
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model Peng Jin Hao Li Ze-Long Cheng Kehan Li Xiang Ji Chang-rui Liu Li-ming Yuan Jie Chen DiffM VGen 28 54 0 17 Mar 2023
Improving Video Retrieval by Adaptive Margin Feng He Qi Wang Zhifan Feng Wenbin Jiang Yajuan Lü Yong Zhu Xiao Tan 88 20 0 09 Mar 2023
Deep Learning for Video-Text Retrieval: a Review Cunjuan Zhu Qi Jia Wei Chen Yanming Guo Yu Liu 24 14 0 24 Feb 2023
Video-Text Retrieval by Supervised Sparse Multi-Grained Learning Yimu Wang Peng Shi 22 5 0 19 Feb 2023
VITR: Augmenting Vision Transformers with Relation-Focused Learning for Cross-Modal Information Retrieval Yansong Gong Georgina Cosma Axel Finke ViT 30 2 0 13 Feb 2023
Towards Local Visual Modeling for Image Captioning Yiwei Ma Jiayi Ji Xiaoshuai Sun Yiyi Zhou Rongrong Ji ViT 21 71 0 13 Feb 2023
DEVICE: Depth and Visual Concepts Aware Transformer for OCR-based Image Captioning Dongsheng Xu Qingbao Huang Shuang Feng Yiru Cai Feng Shuang Yi Cai ViT VLM 30 1 0 03 Feb 2023
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video Haiyang Xu Qinghao Ye Mingshi Yan Yaya Shi Jiabo Ye ... Guohai Xu Ji Zhang Songfang Huang Feiran Huang Jingren Zhou MLLM VLM MoE 40 160 0 01 Feb 2023
UATVR: Uncertainty-Adaptive Text-Video Retrieval Bo Fang Wenhao Wu Chang-rui Liu Yu Zhou Yuxin Song Weiping Wang Min Yang Xiang Ji Jingdong Wang 26 45 0 16 Jan 2023
Towards Real-Time Panoptic Narrative Grounding by an End-to-End Grounding Network Haowei Wang Jiayi Ji Yiyi Zhou Yongjian Wu Xiaoshuai Sun 30 15 0 09 Jan 2023