Multimodal Vision Transformers with Forced Attention for Behavior Analysis

7 December 2022

Papers citing "Multimodal Vision Transformers with Forced Attention for Behavior Analysis"

33 / 33 papers shown

Title
Bodily Behaviors in Social Interaction: Novel Annotations and State-of-the-Art Evaluation Michal Balazia Philippe Muller Ákos Levente Tánczos A. V. Liechtenstein Franccois Brémond 46 22 0 26 Jul 2022
Multiview Transformers for Video Recognition Shen Yan Xuehan Xiong Anurag Arnab Zhichao Lu Mi Zhang Chen Sun Cordelia Schmid ViT 52 215 0 12 Jan 2022
Multimodal Personality Recognition using Cross-Attention Transformer and Behaviour Encoding Tanay Agrawal Dhruv Agarwal Michal Balazia Neelabh Sinha Francois Bremond ViT 52 14 0 22 Dec 2021
From Multimodal to Unimodal Attention in Transformers using Knowledge Distillation Dhruv Agarwal Tanay Agrawal Laura M. Ferrari Franccois Bremond 29 5 0 15 Oct 2021
Dyadformer: A Multi-modal Transformer for Long-Range Modeling of Dyadic Interactions D. Curto Albert Clapés Javier Selva Sorina Smeureanu Julio C. S. Jacques Junior ... G. Guilera D. Leiva T. Moeslund Sergio Escalera Cristina Palmero 54 29 0 20 Sep 2021
iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding and Emotion Analysis Xin Liu Henglin Shi Haoyu Chen Zitong Yu Xiaobai Li Guoying Zhao 45 80 0 01 Jul 2021
Video Swin Transformer Ze Liu Jia Ning Yue Cao Yixuan Wei Zheng Zhang Stephen Lin Han Hu ViT 72 1,458 0 24 Jun 2021
Multiscale Vision Transformers Haoqi Fan Bo Xiong K. Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer ViT 101 1,239 0 22 Apr 2021
VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text Hassan Akbari Liangzhe Yuan Rui Qian Wei-Hong Chuang Shih-Fu Chang Huayu Chen Boqing Gong ViT 260 581 0 22 Apr 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 310 2,016 0 09 Feb 2021
Context-Aware Personality Inference in Dyadic Scenarios: Introducing the UDIVA Dataset Cristina Palmero Javier Selva Sorina Smeureanu Julio C. S. Jacques Junior Albert Clapés ... Zejian Zhang D. Gallardo-Pujol G. Guilera D. Leiva Sergio Escalera 66 54 0 28 Dec 2020
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai ... Matthias Minderer G. Heigold Sylvain Gelly Jakob Uszkoreit N. Houlsby ViT 317 40,217 0 22 Oct 2020
Rethinking Attention with Performers K. Choromanski Valerii Likhosherstov David Dohan Xingyou Song Andreea Gane ... Afroz Mohiuddin Lukasz Kaiser David Belanger Lucy J. Colwell Adrian Weller 133 1,548 0 30 Sep 2020
A Transformer-based joint-encoding for Emotion Recognition and Sentiment Analysis Jean-Benoit Delbrouck Noé Tits Mathilde Brousmiche Stéphane Dupont 37 112 0 29 Jun 2020
Hierarchical Opacity Propagation for Image Matting Yaoyi Li Qin Xu Hongtao Lu 56 13 0 07 Apr 2020
UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training Hangbo Bao Li Dong Furu Wei Wenhui Wang Nan Yang ... Yu Wang Songhao Piao Jianfeng Gao Ming Zhou H. Hon AI4CE 70 394 0 28 Feb 2020
Towards Learning a Universal Non-Semantic Representation of Speech Joel Shor A. Jansen Ronnie Maor Oran Lang Omry Tuval Félix de Chaumont Quitry Marco Tagliasacchi Ira Shavitt Dotan Emanuel Yinnon A. Haviv SSL 96 155 0 25 Feb 2020
Gated Mechanism for Attention Based Multimodal Sentiment Analysis Ayush Kumar Jithendra Vepa 52 82 0 21 Feb 2020
Multilogue-Net: A Context Aware RNN for Multi-modal Emotion Detection and Sentiment Analysis in Conversation Aman Shenoy Ashish Sardana 28 108 0 19 Feb 2020
Unsupervised Cross-lingual Representation Learning at Scale Alexis Conneau Kartikay Khandelwal Naman Goyal Vishrav Chaudhary Guillaume Wenzek Francisco Guzmán Edouard Grave Myle Ott Luke Zettlemoyer Veselin Stoyanov 154 6,454 0 05 Nov 2019
Multimodal Video-based Apparent Personality Recognition Using Long Short-Term Memory and Convolutional Neural Networks Süleyman Aslan U. Güdükbay CVBM 17 19 0 01 Nov 2019
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 258 19,824 0 23 Oct 2019
Emergent Leadership Detection Across Datasets P. Müller Andreas Bulling 13 15 0 06 May 2019
Large-scale weakly-supervised pre-training for video action recognition Deepti Ghadiyaram Matt Feiszli Du Tran Xueting Yan Heng Wang D. Mahajan 42 299 0 02 May 2019
Local Relation Networks for Image Recognition Han Hu Zheng Zhang Zhenda Xie Stephen Lin FAtt 55 499 0 25 Apr 2019
Relation Networks for Object Detection Han Hu Jiayuan Gu Zheng Zhang Jifeng Dai Yichen Wei ObjD 88 1,222 0 30 Nov 2017
A Closer Look at Spatiotemporal Convolutions for Action Recognition Du Tran Heng Wang Lorenzo Torresani Jamie Ray Yann LeCun Manohar Paluri 179 3,007 0 30 Nov 2017
Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks Zhaofan Qiu Ting Yao Tao Mei 63 1,655 0 28 Nov 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 430 129,831 0 12 Jun 2017
Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset João Carreira Andrew Zisserman 194 7,961 0 22 May 2017
Temporal Segment Networks for Action Recognition in Videos Limin Wang Yuanjun Xiong Zhe Wang Yu Qiao Dahua Lin Xiaoou Tang Luc Van Gool ViT 81 807 0 08 May 2017
Bi-modal First Impressions Recognition using Temporally Ordered Deep Audio and Stochastic Visual Features Arulkumar Subramaniam V. Patel Ashish Mishra P. Balasubramanian Anurag Mittal CVBM 19 79 0 31 Oct 2016
Deep Impression: Audiovisual Deep Residual Networks for Multimodal Apparent Personality Trait Recognition Yağmur Güçlütürk Umut Güçlü Marcel van Gerven R. Lier CVBM 35 97 0 16 Sep 2016