Describing Videos by Exploiting Temporal Structure

27 February 2015

Aaron Courville

Papers citing "Describing Videos by Exploiting Temporal Structure"

50 / 372 papers shown

Title
Towards Explainable AI: Multi-Modal Transformer for Video-based Image Description Generation Lakshita Agarwal Bindu Verma ViT 26 0 0 23 Apr 2025
Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning Caihua Liu Xu Li Wenjing Xue Wei Tang Xia Feng 56 0 0 20 Feb 2025
Natural Language Generation from Visual Sequences: Challenges and Future Directions Aditya K Surikuchi Raquel Fernández Sandro Pezzelle EGVM 240 0 0 18 Feb 2025
SPECTRUM: Semantic Processing and Emotion-informed video-Captioning Through Retrieval and Understanding Modalities Ehsan Faghihi Mohammedreza Zarenejad Ali-Asghar Beheshti Shirazi 47 0 0 04 Nov 2024
EVC-MF: End-to-end Video Captioning Network with Multi-scale Features Tian-Zi Niu Zhen-Duo Chen Xin Luo Xin-Shun Xu 26 0 0 22 Oct 2024
Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives Thong Nguyen Yi Bin Junbin Xiao Leigang Qu Yicong Li Jay Zhangjie Wu Cong-Duy Nguyen See-Kiong Ng Luu Anh Tuan VLM 59 10 1 09 Jun 2024
Story Generation from Visual Inputs: Techniques, Related Tasks, and Challenges Daniel A. P. Oliveira Eugénio Ribeiro David Martins de Matos VGen 31 3 0 04 Jun 2024
Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting Fengyi Fu Shancheng Fang Weidong Chen Zhendong Mao ViT VGen 34 4 0 19 Apr 2024
"It's Kind of Context Dependent": Understanding Blind and Low Vision People's Video Accessibility Preferences Across Viewing Scenarios Lucy Jiang Crescentia Jung Mahika Phutane Abigale Stangl Shiri Azenkot 54 12 0 16 Mar 2024
Video ReCap: Recursive Captioning of Hour-Long Videos Md. Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius VGen VLM 35 47 0 20 Feb 2024
Temporal-Spatial Processing of Event Camera Data via Delay-Loop Reservoir Neural Network Richard Lau Anthony Tylan-Tyler Lihan Yao Roberto Rey-de-Castro Robert Taylor Isaiah Jones 21 0 0 12 Feb 2024
Multi-modal News Understanding with Professionally Labelled Videos (ReutersViLNews) Shih-Han Chou Matthew Kowal Yasmin Niknam Diana Moyano Shayaan Mehdi ... Cheng Zhang Ian Knopke S. Kocak Leonid Sigal Yalda Mohsenzadeh 38 1 0 23 Jan 2024
Subject-Oriented Video Captioning Yunchuan Ma Chang Teng Yuankai Qi Guorong Li Laiyun Qing Qi Wu Qingming Huang 30 0 0 20 Dec 2023
Cross-Modal Reasoning with Event Correlation for Video Question Answering Chengxiang Yin Zhengping Che Kun Wu Zhiyuan Xu Qinru Qiu Jian Tang 35 0 0 20 Dec 2023
A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video Keito Kudo Haruki Nagasawa Jun Suzuki Nobuyuki Shimizu 45 2 0 04 Dec 2023
CLearViD: Curriculum Learning for Video Description Cheng-Yu Chuang Pooyan Fazli 38 1 0 08 Nov 2023
CLEVRER-Humans: Describing Physical and Causal Events the Human Way Jiayuan Mao Xuelin Yang Xikun Zhang Noah D. Goodman Jiajun Wu NAI 30 22 0 05 Oct 2023
Collaborative Three-Stream Transformers for Video Captioning Hao Wang Libo Zhang Hengrui Fan Tiejian Luo 36 6 0 18 Sep 2023
Video Captioning with Aggregated Features Based on Dual Graphs and Gated Fusion Yutao Jin Bin Liu Jing Wang 32 1 0 13 Aug 2023
VideoOFA: Two-Stage Pre-Training for Video-to-Text Generation Xilun Chen L. Yu Wenhan Xiong Barlas Ouguz Yashar Mehdad Wen-tau Yih VGen 26 3 0 04 May 2023
A Review of Deep Learning for Video Captioning Moloud Abdar Meenakshi Kollati Swaraja Kuraparthi Farhad Pourpanah Daniel J. McDuff ... Shuicheng Yan Abduallah A. Mohamed Abbas Khosravi Min Zhang Fatih Porikli 3DV 37 21 0 22 Apr 2023
VidStyleODE: Disentangled Video Editing via StyleGAN and NeuralODEs Moayed Haji-Ali Andrew Bond Tolga Birdal Duygu Ceylan Levent Karacan Erkut Erdem Aykut Erdem VGen DiffM 128 2 0 12 Apr 2023
VideoXum: Cross-modal Visual and Textural Summarization of Videos Jingyang Lin Hang Hua Ming Chen Yikang Li Jenhao Hsiao C. Ho Jiebo Luo 33 30 0 21 Mar 2023
Implicit and Explicit Commonsense for Multi-sentence Video Captioning Shih-Han Chou James J. Little Leonid Sigal 26 2 0 14 Mar 2023
ADAPT: Action-aware Driving Caption Transformer Bu Jin Xinyi Liu Yupeng Zheng Pengfei Li Hao Zhao Tong Zhang Yuhang Zheng Guyue Zhou Jingjing Liu 27 69 0 01 Feb 2023
MAViC: Multimodal Active Learning for Video Captioning Gyanendra Das Xavier Thomas Anant Raj Vikram Gupta 16 2 0 11 Dec 2022
Visual Commonsense-aware Representation Network for Video Captioning Pengpeng Zeng Haonan Zhang Lianli Gao Xiangpeng Li Jin Qian Hengtao Shen 29 16 0 17 Nov 2022
Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets Anurag Roy David Johnson Ekka Saptarshi Ghosh Abir Das 23 1 0 13 Oct 2022
Locate before Answering: Answer Guided Question Localization for Video Question Answering Tianwen Qian Ran Cui Jingjing Chen Pai Peng Xiao-Wei Guo Yu-Gang Jiang 34 17 0 05 Oct 2022
A Closer Look at Temporal Ordering in the Segmentation of Instructional Videos Anil Batra Shreyank N. Gowda Frank Keller Laura Sevilla-Lara 36 5 0 30 Sep 2022
Thinking Hallucination for Video Captioning Nasib Ullah Partha Pratim Mohanta VLM 36 4 0 28 Sep 2022
Diverse Video Captioning by Adaptive Spatio-temporal Attention Zohreh Ghaderi Leonard Salewski Hendrik P. A. Lensch 13 8 0 19 Aug 2022
Sports Video Analysis on Large-Scale Data Dekun Wu Henghui Zhao Xingce Bao Richard P. Wildes 29 13 0 09 Aug 2022
Meta-Wrapper: Differentiable Wrapping Operator for User Interest Selection in CTR Prediction Tianwei Cao Qianqian Xu Zhiyong Yang Qingming Huang 36 6 0 28 Jun 2022
GL-RG: Global-Local Representation Granularity for Video Captioning Liqi Yan Qifan Wang Yiming Cui Fuli Feng Xiaojun Quan Xinming Zhang Dongfang Liu 31 59 0 22 May 2022
X-Pool: Cross-Modal Language-Video Attention for Text-Video Retrieval S. Gorti Noël Vouitsis Junwei Ma Keyvan Golestan M. Volkovs Animesh Garg Guangwei Yu 42 148 0 28 Mar 2022
Visual Abductive Reasoning Chen Liang Wenguan Wang Tianfei Zhou Yi Yang LRM 26 38 0 26 Mar 2022
ABN: Agent-Aware Boundary Networks for Temporal Action Proposal Generation Khoa T. Vo Kashu Yamazaki Sang Truong M. Tran Akihiro Sugimoto Ngan Le EgoV 27 9 0 16 Mar 2022
Global2Local: A Joint-Hierarchical Attention for Video Captioning Chengpeng Dai Fuhai Chen Xiaoshuai Sun Rongrong Ji QiXiang Ye Yongjian Wu 22 1 0 13 Mar 2022
Taking an Emotional Look at Video Paragraph Captioning Qinyu Li Tengpeng Li Hanli Wang Changan Chen 24 4 0 12 Mar 2022
Temporal Context Matters: Enhancing Single Image Prediction with Disease Progression Representations Aishik Konwer Xuan Xu Joseph Bae Chaoyu Chen Prateek Prasanna MedIm 36 15 0 02 Mar 2022
Exploiting long-term temporal dynamics for video captioning Yuyu Guo Jingqiu Zhang Lianli Gao 19 18 0 22 Feb 2022
Deep soccer captioning with transformer: dataset, semantics-related losses, and multi-level evaluation Ahmad Hammoudeh Bastein Vanderplaetse Stéphane Dupont ViT 26 6 0 11 Feb 2022
Variational Stacked Local Attention Networks for Diverse Video Captioning Tonmoay Deb Akib Sadmanee Kishor Kumar Ahsan Ali M. Ashraful Mahbubur Rahman 11 8 0 04 Jan 2022
CoCo-BERT: Improving Video-Language Pre-training with Contrastive Cross-modal Matching and Denoising Jianjie Luo Yehao Li Yingwei Pan Ting Yao Hongyang Chao Tao Mei VLM 18 41 0 14 Dec 2021
Question Answering Survey: Directions, Challenges, Datasets, Evaluation Matrices Hariom A. Pandya Brijesh S. Bhatt 40 27 0 07 Dec 2021
Controllable Video Captioning with an Exemplar Sentence Yitian Yuan Lin Ma Jingwen Wang Wenwu Zhu 18 20 0 02 Dec 2021
Syntax Customized Video Captioning by Imitating Exemplar Sentences Yitian Yuan Lin Ma Wenwu Zhu 22 6 0 02 Dec 2021
Relational Graph Learning for Grounded Video Description Generation Wenqiao Zhang Qing Guo Siliang Tang Haizhou Shi Haochen Shi Jun Xiao Yueting Zhuang Luu Anh Tuan 27 33 0 02 Dec 2021
Hierarchical Modular Network for Video Captioning Hanhua Ye Guorong Li Yuankai Qi Shuhui Wang Qingming Huang Ming-Hsuan Yang 27 67 0 24 Nov 2021