Video2Commonsense: Generating Commonsense Descriptions to Enrich Video
Captioning

Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning

11 March 2020

Pratyay Banerjee

Yezhou Yang

Papers citing "Video2Commonsense: Generating Commonsense Descriptions to Enrich Video Captioning"

16 / 16 papers shown

Title
Causal Understanding For Video Question Answering Bhanu Prakash Reddy Guda Tanmay Kulkarni Adithya Sampath Swarnashree Mysore Sathyendra CML 54 0 0 23 Jul 2024
NarrativeBridge: Enhancing Video Captioning with Causal-Temporal Narrative Asmar Nadeem Faegheh Sardari R. Dawes Syed Sameed Husain Adrian Hilton Armin Mustafa 57 4 0 10 Jun 2024
GOAL: A Challenging Knowledge-grounded Video Captioning Benchmark for Real-time Soccer Commentary Generation Ji Qi Jifan Yu Teng Tu Kunyu Gao Yifan Xu ... Juanzi Li Jie Tang Weidong Guo Hui Liu Yu-Syuan Xu 38 19 0 26 Mar 2023
Multimodal learning with graphs Yasha Ektefaie George Dasoulas Ayush Noori Maha Farhat Marinka Zitnik 51 82 0 07 Sep 2022
Tragedy Plus Time: Capturing Unintended Human Activities from Weakly-labeled Videos Arnav Chakravarthy Zhiyuan Fang Yezhou Yang 32 2 0 28 Apr 2022
To Find Waldo You Need Contextual Cues: Debiasing Who's Waldo Yiran Luo Pratyay Banerjee Tejas Gokhale Yezhou Yang Chitta Baral 27 4 0 30 Mar 2022
Video Question Answering: Datasets, Algorithms and Challenges Yaoyao Zhong Junbin Xiao Wei Ji Yicong Li Wei Deng Tat-Seng Chua 27 85 0 02 Mar 2022
Injecting Semantic Concepts into End-to-End Image Captioning Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lin Liang Zhe Gan Lijuan Wang Yezhou Yang Zicheng Liu ViT VLM 24 86 0 09 Dec 2021
Hybrid Reasoning Network for Video-based Commonsense Captioning Weijiang Yu Jian Liang Lei Ji Lu Li Yuejian Fang Nong Xiao Nan Duan 14 10 0 05 Aug 2021
Recent Advances and Trends in Multimodal Deep Learning: A Review Jabeen Summaira Xi Li Amin Muhammad Shoib Songyuan Li Abdul Jabbar HAI 18 55 0 24 May 2021
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions Junbin Xiao Xindi Shang Angela Yao Tat-Seng Chua 45 440 0 18 May 2021
CLEVR_HYP: A Challenge Dataset and Baselines for Visual Question Answering with Hypothetical Actions over Images Shailaja Keyur Sampat Akshay Kumar Yezhou Yang Chitta Baral 26 26 0 13 Apr 2021
Compressing Visual-linguistic Model via Knowledge Distillation Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lijuan Wang Yezhou Yang Zicheng Liu VLM 39 97 0 05 Apr 2021
WeaQA: Weak Supervision via Captions for Visual Question Answering Pratyay Banerjee Tejas Gokhale Yezhou Yang Chitta Baral 25 35 0 04 Dec 2020
What is More Likely to Happen Next? Video-and-Language Future Event Prediction Jie Lei Licheng Yu Tamara L. Berg Joey Tianyi Zhou 27 72 0 15 Oct 2020
Weakly Supervised Attention Learning for Textual Phrases Grounding Zhiyuan Fang Shu Kong Tianshu Yu Yezhou Yang 22 12 0 01 May 2018