Rethinking the constraints of multimodal fusion: case study in Weakly-Supervised Audio-Visual Video Parsing

30 May 2021

Papers citing "Rethinking the constraints of multimodal fusion: case study in Weakly-Supervised Audio-Visual Video Parsing"

33 / 33 papers shown

Title
Scheduled Sampling in Vision-Language Pretraining with Decoupled Encoder-Decoder Network Yehao Li Yingwei Pan Ting Yao Jingwen Chen Tao Mei VLM 74 52 0 27 Jan 2021
X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers Jaemin Cho Jiasen Lu Dustin Schwenk Hannaneh Hajishirzi Aniruddha Kembhavi VLM MLLM 78 102 0 23 Sep 2020
Unified Multisensory Perception: Weakly-Supervised Audio-Visual Video Parsing Yapeng Tian Dingzeyu Li Chenliang Xu 108 184 0 21 Jul 2020
A Simple Framework for Contrastive Learning of Visual Representations Ting-Li Chen Simon Kornblith Mohammad Norouzi Geoffrey E. Hinton SSL 381 18,866 0 13 Feb 2020
Multimodal Intelligence: Representation Learning, Information Fusion, and Applications Chao Zhang Zichao Yang Xiaodong He Li Deng HAI AI4TS 80 332 0 10 Nov 2019
VL-BERT: Pre-training of Generic Visual-Linguistic Representations Weijie Su Xizhou Zhu Yue Cao Bin Li Lewei Lu Furu Wei Jifeng Dai VLM MLLM SSL 169 1,666 0 22 Aug 2019
VisualBERT: A Simple and Performant Baseline for Vision and Language Liunian Harold Li Mark Yatskar Da Yin Cho-Jui Hsieh Kai-Wei Chang VLM 153 1,963 0 09 Aug 2019
Contrastive Multiview Coding Yonglong Tian Dilip Krishnan Phillip Isola SSL 174 2,409 0 13 Jun 2019
Marginalized Average Attentional Network for Weakly-Supervised Learning Yuan. Yuan Yueming Lyu Xi Shen Ivor W. Tsang Dit-Yan Yeung 58 82 0 21 May 2019
VideoBERT: A Joint Model for Video and Language Representation Learning Chen Sun Austin Myers Carl Vondrick Kevin Patrick Murphy Cordelia Schmid VLM SSL 82 1,249 0 03 Apr 2019
Neural Language Modeling with Visual Features Antonios Anastasopoulos Shankar Kumar H. Liao VLM 22 24 0 07 Mar 2019
Dual-modality seq2seq network for audio-visual event localization Yan-Bo Lin Yu-Jhe Li Y. Wang 64 128 0 20 Feb 2019
W-TALC: Weakly-supervised Temporal Activity Localization and Classification S. Paul Sourya Roy Amit K. Roy-Chowdhury 84 311 0 27 Jul 2018
Step-by-step Erasion, One-by-one Collection: A Weakly Supervised Temporal Action Detector Jia-Xing Zhong Nannan Li Weijie Kong Zhang Tao Thomas H. Li Ge Li 120 96 0 09 Jul 2018
Audio-Visual Event Localization in Unconstrained Videos Yapeng Tian Jing Shi Bochen Li Zhiyao Duan Chenliang Xu 101 439 0 23 Mar 2018
Weakly Supervised Action Localization by Sparse Temporal Pooling Network P. Nguyen Ting Liu Gautam Prasad Bohyung Han WSOL 164 351 0 14 Dec 2017
Squeeze-and-Excitation Networks Jie Hu Li Shen Samuel Albanie Gang Sun Enhua Wu 427 26,557 0 05 Sep 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 123 4,221 0 25 Jul 2017
Tensor Fusion Network for Multimodal Sentiment Analysis Amir Zadeh Minghai Chen Soujanya Poria Min Zhang Louis-Philippe Morency 85 1,236 0 23 Jul 2017
Multimodal Machine Learning: A Survey and Taxonomy T. Baltrušaitis Chaitanya Ahuja Louis-Philippe Morency 114 2,937 0 26 May 2017
Look, Listen and Learn Relja Arandjelović Andrew Zisserman SSL 125 906 0 23 May 2017
Hide-and-Seek: Forcing a Network to be Meticulous for Weakly-supervised Object and Action Localization Krishna Kumar Singh Yong Jae Lee 90 682 0 13 Apr 2017
UntrimmedNets for Weakly Supervised Action Recognition and Detection Limin Wang Yuanjun Xiong Dahua Lin Luc Van Gool 55 491 0 09 Mar 2017
PolyNet: A Pursuit of Structural Diversity in Very Deep Networks Xingcheng Zhang Zhizhong Li Chen Change Loy Dahua Lin MDE 65 260 0 17 Nov 2016
Neural Architecture Search with Reinforcement Learning Barret Zoph Quoc V. Le 478 5,381 0 05 Nov 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 2.2K 194,426 0 10 Dec 2015
Where To Look: Focus Regions for Visual Question Answering Kevin J. Shih Saurabh Singh Derek Hoiem 76 460 0 23 Nov 2015
Compact Bilinear Pooling Yang Gao Oscar Beijbom Ning Zhang Trevor Darrell 83 791 0 19 Nov 2015
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering Huijuan Xu Kate Saenko 79 763 0 17 Nov 2015
Stacked Attention Networks for Image Question Answering Zichao Yang Xiaodong He Jianfeng Gao Li Deng Alex Smola BDL 114 1,884 0 07 Nov 2015
Adam: A Method for Stochastic Optimization Diederik P. Kingma Jimmy Ba ODL 2.0K 150,312 0 22 Dec 2014
Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan Andrew Zisserman FAtt MDE 1.7K 100,508 0 04 Sep 2014
Neural Machine Translation by Jointly Learning to Align and Translate Dzmitry Bahdanau Kyunghyun Cho Yoshua Bengio AIMat 578 27,327 0 01 Sep 2014