Dense-Captioning Events in Videos

2 May 2017

Li Fei-Fei

Papers citing "Dense-Captioning Events in Videos"

50 / 280 papers shown

Title
Memory-Guided Semantic Learning Network for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Xing Di Yu Cheng Zichuan Xu Pan Zhou 37 58 0 03 Jan 2022
Cross Modal Retrieval with Querybank Normalisation Simion-Vlad Bogolin Ioana Croitoru Hailin Jin Yang Liu Samuel Albanie 32 84 0 23 Dec 2021
A Survey of Natural Language Generation Chenhe Dong Hai-Tao Zheng Haifan Gong Mengzhao Chen Junxin Li Ying Shen Min Yang 3DV 27 43 0 22 Dec 2021
Tell me what you see: A zero-shot action recognition method based on natural language descriptions Valter Estevam Rayson Laroca David Menotti Hélio Pedrini 43 13 0 18 Dec 2021
KGR^4: Retrieval, Retrospect, Refine and Rethink for Commonsense Generation Xin Liu Dayiheng Liu Baosong Yang Haibo Zhang Junwei Ding Wenqing Yao Weihua Luo Haiying Zhang Jinsong Su LRM 32 8 0 15 Dec 2021
Co-training Transformer with Videos and Images Improves Action Recognition Bowen Zhang Jiahui Yu Christopher Fifty Wei Han Andrew M. Dai Ruoming Pang Fei Sha ViT 28 54 0 14 Dec 2021
Video-Text Pre-training with Learned Regions Rui Yan Mike Zheng Shou Yixiao Ge Alex Jinpeng Wang Xudong Lin Guanyu Cai Jinhui Tang 33 23 0 02 Dec 2021
Syntax Customized Video Captioning by Imitating Exemplar Sentences Yitian Yuan Lin Ma Wenwu Zhu 22 6 0 02 Dec 2021
Weakly-Supervised Video Object Grounding via Causal Intervention Wei Wang Junyu Gao Changsheng Xu CML 32 20 0 01 Dec 2021
MAD: A Scalable Dataset for Language Grounding in Videos from Movie Audio Descriptions Mattia Soldan Alejandro Pardo Juan Carlos León Alcázar Fabian Caba Heilbron Chen Zhao Silvio Giancola Guohao Li VGen 64 96 0 01 Dec 2021
AssistSR: Task-oriented Video Segment Retrieval for Personal AI Assistant Stan Weixian Lei Difei Gao Yuxuan Wang Dongxing Mao Zihan Liang L. Ran Mike Zheng Shou 27 8 0 30 Nov 2021
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling Tsu-Jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin Wenjie Wang Lijuan Wang Zicheng Liu VLM 53 218 0 24 Nov 2021
Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions Hongwei Xue Tiankai Hang Yanhong Zeng Yuchong Sun Bei Liu Huan Yang Jianlong Fu B. Guo AI4TS VLM 31 189 0 19 Nov 2021
DVCFlow: Modeling Information Flow Towards Human-like Video Captioning Xu Yan Zhengcong Fei Shuhui Wang Qingming Huang Qi Tian VGen 40 4 0 19 Nov 2021
Towards Debiasing Temporal Sentence Grounding in Video Hao Zhang Aixin Sun Wei Jing Qiufeng Wang 50 16 0 08 Nov 2021
Masking Modalities for Cross-modal Video Retrieval Valentin Gabeur Arsha Nagrani Chen Sun Alahari Karteek Cordelia Schmid 19 29 0 01 Nov 2021
Hierarchical Deep Residual Reasoning for Temporal Moment Localization Ziyang Ma Xianjing Han Xuemeng Song Yiran Cui Liqiang Nie 18 9 0 31 Oct 2021
AEI: Actors-Environment Interaction with Adaptive Attention for Temporal Action Proposals Generation Khoa T. Vo Kevin Hyekang Joo Kashu Yamazaki Sang Truong Kris Kitani Minh-Triet Tran Ngan Le EgoV 61 17 0 21 Oct 2021
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 281 1,026 0 13 Oct 2021
NoisyActions2M: A Multimedia Dataset for Video Understanding from Noisy Labels Mohit Sharma Rajkumar Patra Harshali Desai Shruti Vyas Yogesh S Rawat R. Shah VGen NoLa 24 3 0 13 Oct 2021
Multi-Modal Interaction Graph Convolutional Network for Temporal Language Localization in Videos Zongmeng Zhang Xianjing Han Xuemeng Song Yan Yan Liqiang Nie 41 36 0 12 Oct 2021
More Than Reading Comprehension: A Survey on Datasets and Metrics of Textual Question Answering Yang Bai D. Wang 96 10 0 25 Sep 2021
End-to-End Dense Video Grounding via Parallel Regression Fengyuan Shi Weilin Huang Limin Wang 61 10 0 23 Sep 2021
Natural Language Video Localization with Learnable Moment Proposals Shaoning Xiao Long Chen Jian Shao Yueting Zhuang Jun Xiao 14 43 0 22 Sep 2021
A Survey on Temporal Sentence Grounding in Videos Xiaohan Lan Yitian Yuan Xin Eric Wang Zhi Wang Wenwu Zhu 37 47 0 16 Sep 2021
KFCNet: Knowledge Filtering and Contrastive Learning Network for Generative Commonsense Reasoning Haonan Li Yeyun Gong Jian Jiao Ruofei Zhang Timothy Baldwin Nan Duan OffRL 60 6 0 14 Sep 2021
Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding Daizong Liu Xiaoye Qu Pan Zhou 23 46 0 14 Sep 2021
Adaptive Proposal Generation Network for Temporal Sentence Localization in Videos Daizong Liu Xiaoye Qu Jianfeng Dong Pan Zhou 24 54 0 14 Sep 2021
Negative Sample Matters: A Renaissance of Metric Learning for Temporal Grounding Zhenzhi Wang Limin Wang Tao Wu Tianhao Li Gangshan Wu AI4TS 30 116 0 10 Sep 2021
EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery Generation Yanjun Gao Lulu Liu Jason Wang Xin Chen Huayan Wang Rui Zhang 31 1 0 10 Sep 2021
Sensor-Augmented Egocentric-Video Captioning with Dynamic Modal Attention Katsuyuki Nakamura Hiroki Ohashi Mitsuhiro Okada EgoV 36 13 0 07 Sep 2021
Zero-shot Natural Language Video Localization Jinwoo Nam Daechul Ahn Dongyeop Kang S. Ha Jonghyun Choi 94 43 0 29 Aug 2021
Rethinking Why Intermediate-Task Fine-Tuning Works Ting-Yun Chang Chi-Jen Lu LRM 24 29 0 26 Aug 2021
Support-Set Based Cross-Supervision for Video Grounding Xinpeng Ding N. Wang Shiwei Zhang De Cheng Xiaomeng Li Ziyuan Huang Mingqian Tang Xinbo Gao 33 42 0 24 Aug 2021
TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment Jianwei Yang Yonatan Bisk Jianfeng Gao 27 137 0 23 Aug 2021
End-to-End Dense Video Captioning with Parallel Decoding Teng Wang Ruimao Zhang Zhichao Lu Feng Zheng Ran Cheng Ping Luo 3DV 47 180 0 17 Aug 2021
Optimizing Latency for Online Video CaptioningUsing Audio-Visual Transformers Chiori Hori Takaaki Hori Jonathan Le Roux 25 4 0 04 Aug 2021
Adaptive Hierarchical Graph Reasoning with Semantic Coherence for Video-and-Language Inference Juncheng Li Siliang Tang Linchao Zhu Haochen Shi Xuanwen Huang Fei Wu Yi Yang Yueting Zhuang 27 28 0 26 Jul 2021
Cross-Sentence Temporal and Semantic Relations in Video Activity Localisation Jiabo Huang Yang Liu S. Gong Hailin Jin 34 61 0 23 Jul 2021
QVHighlights: Detecting Moments and Highlights in Videos via Natural Language Queries Jie Lei Tamara L. Berg Joey Tianyi Zhou ViT 26 63 0 20 Jul 2021
End-to-end Multi-modal Video Temporal Grounding Yi-Wen Chen Yi-Hsuan Tsai Ming-Hsuan Yang 11 51 0 12 Jul 2021
Weakly Supervised Temporal Adjacent Network for Language Grounding Yuechen Wang Jiajun Deng Wen-gang Zhou Houqiang Li 26 67 0 30 Jun 2021
MERLOT: Multimodal Neural Script Knowledge Models Rowan Zellers Ximing Lu Jack Hessel Youngjae Yu J. S. Park Jize Cao Ali Farhadi Yejin Choi VLM LRM 36 374 0 04 Jun 2021
Towards Diverse Paragraph Captioning for Untrimmed Videos Yuqing Song Shizhe Chen Qin Jin 21 37 0 30 May 2021
Recent Advances and Trends in Multimodal Deep Learning: A Review Jabeen Summaira Xi Li Amin Muhammad Shoib Songyuan Li Abdul Jabbar HAI 23 55 0 24 May 2021
Parallel Attention Network with Sequence Matching for Video Grounding Hao Zhang Aixin Sun Wei Jing Liangli Zhen Qiufeng Wang Rick Siow Mong Goh 23 40 0 18 May 2021
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions Junbin Xiao Xindi Shang Angela Yao Tat-Seng Chua 45 448 0 18 May 2021
Video Corpus Moment Retrieval with Contrastive Learning Hao Zhang Aixin Sun Wei Jing Guoshun Nan Liangli Zhen Qiufeng Wang Rick Siow Mong Goh 44 81 0 13 May 2021
Audio Retrieval with Natural Language Queries Andreea-Maria Oncescu A. Sophia Koepke João F. Henriques Zeynep Akata Samuel Albanie 21 77 0 05 May 2021
T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval Xiaohan Wang Linchao Zhu Yi Yang 170 170 0 20 Apr 2021