A Dataset for Movie Description

12 January 2015

Bernt Schiele

Papers citing "A Dataset for Movie Description"

50 / 257 papers shown

Title
Masked Modeling for Self-supervised Representation Learning on Vision and Beyond Siyuan Li Luyuan Zhang Zedong Wang Di Wu Lirong Wu ... Jun Xia Cheng Tan Yang Liu Baigui Sun Stan Z. Li SSL 44 14 0 31 Dec 2023
Vision-Language Models Learn Super Images for Efficient Partially Relevant Video Retrieval Taichi Nishimura Shota Nakada Masayoshi Kondo VLM 23 0 0 01 Dec 2023
MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning Chaoyi Zhang K. Lin Zhengyuan Yang Jianfeng Wang Linjie Li Chung-Ching Lin Zicheng Liu Lijuan Wang VGen 31 28 0 29 Nov 2023
VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models Shicheng Li Lei Li Shuhuai Ren Yuanxin Liu Yi Liu Rundong Gao Xu Sun Lu Hou 42 30 0 29 Nov 2023
VLM-Eval: A General Evaluation on Video Large Language Models Shuailin Li Yuang Zhang Yucheng Zhao Qiuyue Wang Fan Jia Yingfei Liu Tiancai Wang MLLM ELM 44 2 0 20 Nov 2023
Sinkhorn Transformations for Single-Query Postprocessing in Text-Video Retrieval Konstantin Yakovlev Gregory Polyakov I. Alimova Alexander Podolskiy A. Bout Sergey I. Nikolenko Irina Piontkovskaya CLIP 24 1 0 14 Nov 2023
MM-VID: Advancing Video Understanding with GPT-4V(ision) Kevin Qinghong Lin Faisal Ahmed Linjie Li Chung-Ching Lin E. Azarnasab ... Lin Liang Zicheng Liu Yumao Lu Ce Liu Lijuan Wang MLLM 28 63 0 30 Oct 2023
Harvest Video Foundation Models via Efficient Post-Pretraining Yizhuo Li Kunchang Li Yinan He Yi Wang Yali Wang Limin Wang Yu Qiao Ping Luo CLIP VLM VGen 54 2 0 30 Oct 2023
Sound of Story: Multi-modal Storytelling with Audio Jaeyeon Bae Seokhoon Jeong Seokun Kang Namgi Han Jae-Yon Lee Hyounghun Kim Taehwan Kim 26 3 0 30 Oct 2023
AutoAD II: The Sequel -- Who, When, and What in Movie Audio Description Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen DiffM 32 36 0 10 Oct 2023
Towards Surveillance Video-and-Language Understanding: New Dataset, Baselines, and Challenges Tongtong Yuan Xuange Zhang Kun Liu Bo Liu Chen Chen Jian Jin Zhenzhen Jiao AI4TS 34 14 0 25 Sep 2023
Distraction-free Embeddings for Robust VQA Atharvan Dogra Deeksha Varshney Ashwin Kalyan Ameet Deshpande Neeraj Kumar 24 0 0 31 Aug 2023
Simple Baselines for Interactive Video Retrieval with Questions and Answers Kaiqu Liang Samuel Albanie 24 2 0 21 Aug 2023
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding Enxin Song Wenhao Chai Guanhong Wang Yucheng Zhang Haoyang Zhou ... Tianbo Ye Yanting Zhang Yang Lu Lei Li Gaoang Wang VLM MLLM 27 264 0 31 Jul 2023
Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment Sarah Ibrahimi Xiaohang Sun Pichao Wang Amanmeet Garg Ashutosh Sanan Mohamed Omar 46 14 0 24 Jul 2023
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation Yi Wang Yinan He Yizhuo Li Kunchang Li Jiashuo Yu ... Ping Luo Ziwei Liu Yali Wang Limin Wang Yu Qiao VLM VGen 33 249 0 13 Jul 2023
PTVD: A Large-Scale Plot-Oriented Multimodal Dataset Based on Television Dramas Chen Li Xutan Peng Teng Wang Yixiao Ge Mengyang Liu Xuyuan Xu Yexin Wang Ying Shan VGen 17 2 0 26 Jun 2023
Global and Local Semantic Completion Learning for Vision-Language Pre-training Rong-Cheng Tu Yatai Ji Jie Jiang Weijie Kong Chengfei Cai Wenzhe Zhao Hongfa Wang Yujiu Yang Wei Liu VLM 26 2 0 12 Jun 2023
Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks Haiyang Xu Qinghao Ye Xuan-Wei Wu Mingshi Yan Yuan Miao ... Qingfang Qian Maofei Que Ji Zhang Xiaoyan Zeng Feiyan Huang VLM MLLM 48 23 0 07 Jun 2023
MoviePuzzle: Visual Narrative Reasoning through Multimodal Order Learning Jianghui Wang Yuxuan Wang Dongyan Zhao Zilong Zheng 46 1 0 04 Jun 2023
Evaluating the Capabilities of Multi-modal Reasoning Models with Synthetic Task Data Nathan Vaska Victoria Helus LRM 17 1 0 01 Jun 2023
End-to-end Knowledge Retrieval with Multi-modal Queries Man Luo Zhiyuan Fang Tejas Gokhale Yezhou Yang Chitta Baral VLM 27 17 0 01 Jun 2023
TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale Ziyun Zeng Yixiao Ge Zhan Tong Xihui Liu Shutao Xia Ying Shan 24 9 0 23 May 2023
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment Peng Jin Hao Li Ze-Long Cheng Jinfa Huang Zhennan Wang Li-ming Yuan Chang-rui Liu Jie Chen 38 32 0 20 May 2023
Movie101: A New Movie Understanding Benchmark Zihao Yue Qi Zhang Anwen Hu Liang Zhang Ziheng Wang Qin Jin VGen 35 17 0 20 May 2023
Swap Attention in Spatiotemporal Diffusions for Text-to-Video Generation Wenjing Wang Huan Yang Zixi Tuo Huiguo He Sitong Su Jianlong Fu Jiaying Liu DiffM VGen 53 114 0 18 May 2023
Iterative Adversarial Attack on Image-guided Story Ending Generation Youze Wang Wenbo Hu Richang Hong 36 3 0 16 May 2023
A Review of Deep Learning for Video Captioning Moloud Abdar Meenakshi Kollati Swaraja Kuraparthi Farhad Pourpanah Daniel J. McDuff ... Shuicheng Yan Abduallah A. Mohamed Abbas Khosravi Min Zhang Fatih Porikli 3DV 45 21 0 22 Apr 2023
SoccerNet-Caption: Dense Video Captioning for Soccer Broadcasts Commentaries Hassan Mkhallati A. Cioppa Silvio Giancola Guohao Li Marc Van Droogenbroeck 30 33 0 10 Apr 2023
Improving Visual Question Answering Models through Robustness Analysis and In-Context Learning with a Chain of Basic Questions Jia-Hong Huang Modar Alfadly Guohao Li M. Worring OOD AAML 44 5 0 06 Apr 2023
AutoAD: Movie Description in Context Tengda Han Max Bain Arsha Nagrani Gül Varol Weidi Xie Andrew Zisserman VGen 24 34 0 29 Mar 2023
Fine-grained Audible Video Description Xuyang Shen Dong Li Jinxing Zhou Zhen Qin Bowen He ... Yuchao Dai Lingpeng Kong Meng Wang Yu Qiao Yiran Zhong VGen 41 11 0 27 Mar 2023
DiffusionRet: Generative Text-Video Retrieval with Diffusion Model Peng Jin Hao Li Ze-Long Cheng Kehan Li Xiang Ji Chang-rui Liu Li-ming Yuan Jie Chen DiffM VGen 28 54 0 17 Mar 2023
Improving Video Retrieval by Adaptive Margin Feng He Qi Wang Zhifan Feng Wenbin Jiang Yajuan Lü Yong Zhu Xiao Tan 88 20 0 09 Mar 2023
COVID-VTS: Fact Extraction and Verification on Short Video Platforms Fuxiao Liu Yaser Yacoob Abhinav Shrivastava 26 27 0 15 Feb 2023
mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image and Video Haiyang Xu Qinghao Ye Mingshi Yan Yaya Shi Jiabo Ye ... Guohai Xu Ji Zhang Songfang Huang Feiran Huang Jingren Zhou MLLM VLM MoE 46 161 0 01 Feb 2023
Learning Trajectory-Word Alignments for Video-Language Tasks Xu Yang Zhang Li Haiyang Xu Hanwang Zhang Qinghao Ye Chenliang Li Ming Yan Yu Zhang Fei Huang Songfang Huang 36 7 0 05 Jan 2023
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training Qinghao Ye Guohai Xu Ming Yan Haiyang Xu Qi Qian Ji Zhang Fei Huang VLM AI4TS 188 69 0 30 Dec 2022
MAViC: Multimodal Active Learning for Video Captioning Gyanendra Das Xavier Thomas Anant Raj Vikram Gupta 16 2 0 11 Dec 2022
CLIP-TSA: CLIP-Assisted Temporal Self-Attention for Weakly-Supervised Video Anomaly Detection Kevin Hyekang Joo Khoa T. Vo Kashu Yamazaki Ngan Le 27 39 0 09 Dec 2022
SimVTP: Simple Video Text Pre-training with Masked Autoencoders Yue Ma Tianyu Yang Yin Shan Xiu Li 41 27 0 07 Dec 2022
InternVideo: General Video Foundation Models via Generative and Discriminative Learning Yi Wang Kunchang Li Yizhuo Li Yinan He Bingkun Huang ... Junting Pan Jiashuo Yu Yali Wang Limin Wang Yu Qiao VLM VGen 57 311 0 06 Dec 2022
Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning Yatai Ji Rong-Cheng Tu Jie Jiang Weijie Kong Chengfei Cai Wenzhe Zhao Hongfa Wang Yujiu Yang Wei Liu VLM 37 13 0 24 Nov 2022
Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative Latent Attention Zineng Tang Jaemin Cho Jie Lei Joey Tianyi Zhou VLM 24 9 0 21 Nov 2022
Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations Peng Jin Jinfa Huang Fenglin Liu Xian Wu Shen Ge Guoli Song David Clifton Jing Chen VLM 47 64 0 21 Nov 2022
CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties via Video Question Answering Maitreya Patel Tejas Gokhale Chitta Baral Yezhou Yang 49 9 0 07 Nov 2022
MovieCLIP: Visual Scene Recognition in Movies Digbalay Bose Rajat Hebbar Krishna Somandepalli Haoyang Zhang Huayu Chen K. Cole-McLaughlin Haoran Wang Shrikanth Narayanan CLIP 22 21 0 20 Oct 2022
RaP: Redundancy-aware Video-language Pre-training for Text-Video Retrieval Xing Wu Chaochen Gao Zijia Lin Zhongyuan Wang Jizhong Han Songlin Hu 32 8 0 13 Oct 2022
Learning Transferable Spatiotemporal Representations from Natural Script Knowledge Ziyun Zeng Yuying Ge Xihui Liu Bin Chen Ping Luo Shutao Xia Yixiao Ge AI4TS 37 8 0 30 Sep 2022
Text-Adaptive Multiple Visual Prototype Matching for Video-Text Retrieval Che-Hsien Lin Ancong Wu Junwei Liang Jun Zhang Wenhang Ge Wei Zheng Chunhua Shen 94 21 0 27 Sep 2022