Gaining Extra Supervision via Multi-task learning for Multi-Modal Video Question Answering

28 May 2019

Papers citing "Gaining Extra Supervision via Multi-task learning for Multi-Modal Video Question Answering"

7 / 7 papers shown

Title
Frame-Subtitle Self-Supervision for Multi-Modal Video Question Answering Jiong Wang Zhou Zhao Weike Jin 18 0 0 08 Sep 2022
All in One: Exploring Unified Video-Language Pre-training Alex Jinpeng Wang Yixiao Ge Rui Yan Yuying Ge Xudong Lin Guanyu Cai Jianping Wu Ying Shan Xiaohu Qie Mike Zheng Shou 36 200 0 14 Mar 2022
Structured Co-reference Graph Attention for Video-grounded Dialogue Junyeong Kim Sunjae Yoon Dahyun Kim Chang D. Yoo 23 26 0 24 Mar 2021
MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering Aisha Urooj Khan Amir Mazaheri N. Lobo M. Shah 32 56 0 27 Oct 2020
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA Hyounghun Kim Zineng Tang Joey Tianyi Zhou 30 31 0 13 May 2020
Character Matters: Video Story Understanding with Character-Aware Relations Shijie Geng Ji Zhang Zuohui Fu Peng Gao Hang Zhang Gerard de Melo 18 11 0 09 May 2020
TVQA+: Spatio-Temporal Grounding for Video Question Answering Jie Lei Licheng Yu Tamara L. Berg Joey Tianyi Zhou 31 227 0 25 Apr 2019