Video Captioning with Transferred Semantic Attributes

23 November 2016

Yingwei Pan

Ting Yao

Houqiang Li

Tao Mei

ArXiv PDF HTML

Papers citing "Video Captioning with Transferred Semantic Attributes"

38 / 38 papers shown

Title
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin Yiming Li Li Yuan Shuicheng Yan Jie Chen 58 1 0 31 Dec 2024
Video ReCap: Recursive Captioning of Hour-Long Videos Md. Mohaiminul Islam Ngan Ho Xitong Yang Tushar Nagarajan Lorenzo Torresani Gedas Bertasius VGen VLM 35 47 0 20 Feb 2024
RoboVQA: Multimodal Long-Horizon Reasoning for Robotics P. Sermanet Tianli Ding Jeffrey Zhao Fei Xia Debidatta Dwibedi ... Pannag R. Sanketi Karol Hausman Izhak Shafran Brian Ichter Yuan Cao LM&Ro 33 50 0 01 Nov 2023
Few-shot Action Recognition with Captioning Foundation Models Xiang Wang Shiwei Zhang Hangjie Yuan Yingya Zhang Changxin Gao Deli Zhao Nong Sang VLM 32 7 0 16 Oct 2023
Generation-Guided Multi-Level Unified Network for Video Grounding Xingyi Cheng Xiangyu Wu Dong Shen Hezheng Lin Fan Yang 21 0 0 14 Mar 2023
Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning Antoine Yang Arsha Nagrani Paul Hongsuck Seo Antoine Miech Jordi Pont-Tuset Ivan Laptev Josef Sivic Cordelia Schmid AI4TS VLM 39 221 0 27 Feb 2023
ADAPT: Action-aware Driving Caption Transformer Bu Jin Xinyi Liu Yupeng Zheng Pengfei Li Hao Zhao Tong Zhang Yuhang Zheng Guyue Zhou Jingjing Liu 30 69 0 01 Feb 2023
Weakly Supervised Video Salient Object Detection via Point Supervision Shuyong Gao Hao Xing Wei Zhang Yan Wang Qianyu Guo Wenqiang Zhang 33 24 0 15 Jul 2022
Automatic Concept Extraction for Concept Bottleneck-based Video Classification J. Jeyakumar Luke Dickens L. Garcia Yu Cheng Diego Ramirez Echavarria Joseph Noor Alessandra Russo Lance M. Kaplan Erik P. Blasch Mani B. Srivastava 24 8 0 21 Jun 2022
The Dialog Must Go On: Improving Visual Dialog via Generative Self-Training Gi-Cheon Kang Sungdong Kim Jin-Hwa Kim Donghyun Kwak Byoung-Tak Zhang 32 10 0 25 May 2022
CLIP4Caption: CLIP for Video Caption Mingkang Tang Zhanyu Wang Zhenhua Liu Fengyun Rao Dian Li Xiu Li CLIP VLM 35 150 0 13 Oct 2021
A Survey on Temporal Sentence Grounding in Videos Xiaohan Lan Yitian Yuan Xin Wang Zhi Wang Wenwu Zhu 32 47 0 16 Sep 2021
X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics Yehao Li Yingwei Pan Jingwen Chen Ting Yao Tao Mei VLM 19 31 0 18 Aug 2021
Enhancing Self-supervised Video Representation Learning via Multi-level Feature Optimization Rui Qian Yuxi Li Huabin Liu John See Shuangrui Ding Xian Liu Dian Li Weiyao Lin 35 42 0 04 Aug 2021
Confidence-guided Adaptive Gate and Dual Differential Enhancement for Video Salient Object Detection Peijia Chen Jianhuang Lai Guangcong Wang Huajun Zhou 30 18 0 14 May 2021
A Survey on Natural Language Video Localization Xinfang Liu Xiushan Nie Zhifang Tan Jie Guo Yilong Yin 28 7 0 01 Apr 2021
Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos Sijie Song Xudong Lin Jiaying Liu Zongming Guo Shih-Fu Chang ObjD 21 16 0 23 Mar 2021
SBAT: Video Captioning with Sparse Boundary-Aware Transformer Tao Jin Siyu Huang Ming Chen Yingming Li Zhongfei Zhang 32 52 0 23 Jul 2020
Learning to Discretely Compose Reasoning Module Networks for Video Captioning Ganchao Tan Daqing Liu Meng Wang Zhengjun Zha LRM 25 73 0 17 Jul 2020
A Transformer-based Audio Captioning Model with Keyword Estimation Yuma Koizumi Ryo Masumura Kyosuke Nishida Masahiro Yasuda Shoichiro Saito 18 54 0 01 Jul 2020
Multi-modal Dense Video Captioning Vladimir E. Iashin Esa Rahtu 22 164 0 17 Mar 2020
Better Captioning with Sequence-Level Exploration Jia Chen Qin Jin 37 12 0 08 Mar 2020
Action Modifiers: Learning from Adverbs in Instructional Videos Hazel Doughty Ivan Laptev W. Mayol-Cuevas Dima Damen 27 30 0 13 Dec 2019
Mocycle-GAN: Unpaired Video-to-Video Translation Yang Chen Yingwei Pan Ting Yao Xinmei Tian Tao Mei GAN 19 53 0 26 Aug 2019
Trends in Integration of Vision and Language Research: A Survey of Tasks, Datasets, and Methods Aditya Mogadala M. Kalimuthu Dietrich Klakow VLM 25 132 0 22 Jul 2019
Reconstruct and Represent Video Contents for Captioning via Reinforcement Learning Wei Zhang Bairui Wang Lin Ma Wei Liu 20 67 0 03 Jun 2019
Aligning Visual Regions and Textual Concepts for Semantic-Grounded Image Representations Fenglin Liu Yuanxin Liu Xuancheng Ren Xiaodong He Xu Sun VLM 34 81 0 15 May 2019
Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioning Jingwen Chen Yingwei Pan Yehao Li Ting Yao Hongyang Chao Tao Mei 21 104 0 03 May 2019
Pointing Novel Objects in Image Captioning Yehao Li Ting Yao Yingwei Pan Hongyang Chao Tao Mei 33 69 0 25 Apr 2019
End-to-End Video Captioning Silvio Olivastri Gurkirt Singh Fabio Cuzzolin 18 18 0 04 Apr 2019
Spatio-Temporal Dynamics and Semantic Attribute Enriched Visual Encoding for Video Captioning Nayyer Aafaq Naveed Akhtar Wei Liu Syed Zulqarnain Gilani Ajmal Mian 31 204 0 27 Feb 2019
Grounded Video Description Luowei Zhou Yannis Kalantidis Xinlei Chen Jason J. Corso Marcus Rohrbach 27 191 0 17 Dec 2018
The ActivityNet Large-Scale Activity Recognition Challenge 2018 Summary Guohao Li Juan Carlos Niebles Cees G. M. Snoek Fabian Caba Heilbron Humam Alwassel Victor Escorcia Ranjay Krishna S. Buch Cuong Duc Dao 42 65 0 11 Aug 2018
Jointly Localizing and Describing Events for Dense Video Captioning Yehao Li Ting Yao Yingwei Pan Hongyang Chao Tao Mei 27 168 0 23 Apr 2018
Reconstruction Network for Video Captioning Bairui Wang Lin Ma Wei Zhang Wei Liu 38 317 0 30 Mar 2018
Symbol Emergence in Cognitive Developmental Systems: a Survey T. Taniguchi Emre Ugur Matej Hoffmann L. Jamone Takayuki Nagai ... Toshihiko Matsuka N. Iwahashi Erhan Öztop J. Piater F. Worgotter 25 90 0 26 Jan 2018
Boosting Image Captioning with Attributes Ting Yao Yingwei Pan Yehao Li Zhaofan Qiu Tao Mei VLM 48 620 0 05 Nov 2016
Image Captioning and Visual Question Answering Based on Attributes and External Knowledge Qi Wu Chunhua Shen Anton Van Den Hengel Peng Wang A. Dick 27 360 0 09 Mar 2016