Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations

4 March 2024

Sangmin Lee

Papers citing "Modeling Multimodal Social Interactions: New Challenges and Baselines with Densely Aligned Representations"

31 / 31 papers shown

Title
MultiMind: Enhancing Werewolf Agents with Multimodal Reasoning and Theory of Mind Zhenru Zhang Nuoqian Xiao Qi Chai Deheng Ye Hao Wang LLMAG LRM 138 0 0 25 Apr 2025
Interaction-aware Joint Attention Estimation Using People Attributes Chihiro Nakatani Hiroaki Kawashima Norimichi Ukita ViT 35 6 0 10 Aug 2023
Object-aware Gaze Target Detection Francesco Tonini Nicola Dall’Asen Cigdem Beyan Elisa Ricci 61 22 0 18 Jul 2023
DINOv2: Learning Robust Visual Features without Supervision Maxime Oquab Timothée Darcet Théo Moutakanni Huy Q. Vo Marc Szafraniec ... Hervé Jégou Julien Mairal Patrick Labatut Armand Joulin Piotr Bojanowski VLM CLIP SSL 320 3,386 0 14 Apr 2023
Knowledge-Bridged Causal Interaction Network for Causal Emotion Entailment Weixiang Zhao Yanyan Zhao Zhuojun Li Bing Qin 44 33 0 06 Dec 2022
UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion Recognition Guimin Hu Ting-En Lin Yi Zhao Guangming Lu Yuchuan Wu Yongbin Li 81 117 0 21 Nov 2022
AlphaPose: Whole-Body Regional Multi-Person Pose Estimation and Tracking in Real-Time Haoshu Fang Jiefeng Li Hongyang Tang Chaoshun Xu Haoyi Zhu Yuliang Xiu Yong-Lu Li Cewu Lu 3DH 71 421 0 07 Nov 2022
Training an Assassin AI for The Resistance: Avalon Robert Chuchro 26 3 0 19 Sep 2022
In the Eye of Transformer: Global-Local Correlation for Egocentric Gaze Estimation Bolin Lai Miao Liu Fiona Ryan James M. Rehg ViT 63 37 0 08 Aug 2022
Learning Hierarchical Cross-Modal Association for Co-Speech Gesture Generation Xian Liu Qianyi Wu Hang Zhou Yinghao Xu Rui Qian Xinyi Lin Xiaowei Zhou Wayne Wu Bo Dai Bolei Zhou SLR 72 105 0 24 Mar 2022
End-to-End Human-Gaze-Target Detection with Transformers Danyang Tu Xiongkuo Min Huiyu Duan G. Guo Guangtao Zhai Wei Shen ViT 114 57 0 20 Mar 2022
MM-DFN: Multimodal Dynamic Fusion Network for Emotion Recognition in Conversations Dou Hu Xiaolong Hou Lingwei Wei Lian-Xin Jiang Yang Mo 69 124 0 04 Mar 2022
MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis Georgios Paraskevopoulos Efthymios Georgiou Alexandros Potamianos 39 27 0 24 Jan 2022
Decoupling and Recoupling Spatiotemporal Representation for RGB-D-based Motion Recognition Benjia Zhou Pichao Wang Jun Wan Yanyan Liang Fan Wang Du Zhang Zhen Lei Hao Li Rong Jin 64 30 0 16 Dec 2021
Speaker and Time-aware Joint Contextual Learning for Dialogue-act Classification in Counselling Conversations Ganeshan Malhotra Abdul Waheed Aseem Srivastava Md. Shad Akhtar Tanmoy Chakraborty 28 41 0 12 Nov 2021
Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman Andrew Westbury Eugene Byrne Zachary Chavis Antonino Furnari ... Mike Zheng Shou Antonio Torralba Lorenzo Torresani Mingfei Yan Jitendra Malik EgoV 388 1,088 0 13 Oct 2021
Topic-Driven and Knowledge-Aware Transformer for Dialogue Emotion Detection Lixing Zhu Gabriele Pergola Lin Gui Deyu Zhou Yulan He 66 146 0 02 Jun 2021
Directed Acyclic Graph Network for Conversational Emotion Recognition Weizhou Shen Siyue Wu Yunyi Yang Xiaojun Quan 68 241 0 27 May 2021
Multiscale Vision Transformers Haoqi Fan Bo Xiong K. Mangalam Yanghao Li Zhicheng Yan Jitendra Malik Christoph Feichtenhofer ViT 129 1,259 0 22 Apr 2021
CaSiNo: A Corpus of Campsite Negotiation Dialogues for Automatic Negotiation Systems Kushal Chawla Jaysa Ramirez Rene Clever Gale M. Lucas Jonathan May Jonathan Gratch 51 52 0 29 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 921 29,372 0 26 Feb 2021
Co-GAT: A Co-Interactive Graph Attention Network for Joint Dialog Act Recognition and Sentiment Classification Libo Qin Zhouyang Li Wanxiang Che Minheng Ni Ting Liu 76 66 0 24 Dec 2020
DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act Recognition and Sentiment Classification Libo Qin Wanxiang Che Yangming Li Minheng Ni Ting Liu 84 94 0 16 Aug 2020
Detecting Attended Visual Targets in Video Eunji Chong Yongxin Wang Nataniel Ruiz James M. Rehg 229 115 0 05 Mar 2020
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 633 24,431 0 26 Jul 2019
Persuasion for Good: Towards a Personalized Persuasive Dialogue System for Social Good Xuewei Wang Weiyan Shi Richard Kim Y. Oh Sijia Yang Jingwen Zhang Zhou Yu 103 284 0 16 Jun 2019
Finding Friend and Foe in Multi-Agent Games Jack Serrino Max Kleiman-Weiner David C. Parkes J. Tenenbaum 53 61 0 05 Jun 2019
HiGRU: Hierarchical Gated Recurrent Units for Utterance-level Emotion Recognition Wenxiang Jiao Haiqin Yang Irwin King Michael R. Lyu 40 129 0 09 Apr 2019
Dialogue Act Classification with Context-Aware Self-Attention Vipul Raheja Joel R. Tetreault 46 104 0 04 Apr 2019
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.7K 94,770 0 11 Oct 2018
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 692 131,526 0 12 Jun 2017