Factor Graph Attention

11 April 2019

Papers citing "Factor Graph Attention"

29 / 29 papers shown

Title
STA-V2A: Video-to-Audio Generation with Semantic and Temporal Alignment Yong Ren Chenxing Li Manjie Xu Wei Liang Yu Gu Rilin Chen Dong Yu VGen DiffM 48 7 0 13 Sep 2024
Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog Haoyu Zhang Meng Liu Yaowei Wang Da Cao Weili Guan Liqiang Nie 36 0 0 11 Oct 2023
AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation Guy Yariv Itai Gat Lior Wolf Yossi Adi Idan Schwartz DiffM 20 20 0 22 May 2023
Unified Multimodal Model with Unlikelihood Training for Visual Dialog Zihao Wang Junli Wang Changjun Jiang MLLM 29 10 0 23 Nov 2022
Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review Hao Wang Bin Guo Y. Zeng Yasan Ding Chen Qiu Ying Zhang Li Yao Zhiwen Yu 32 2 0 02 Jul 2022
Dual Decomposition of Convex Optimization Layers for Consistent Attention in Medical Images Tom Ron M. Weiler-Sagie Tamir Hazan FAtt MedIm 24 6 0 06 Jun 2022
The Dialog Must Go On: Improving Visual Dialog via Generative Self-Training Gi-Cheon Kang Sungdong Kim Jin-Hwa Kim Donghyun Kwak Byoung-Tak Zhang 32 10 0 25 May 2022
Multimodal Conversational AI: A Survey of Datasets and Approaches Anirudh S. Sundar Larry Heck 38 29 0 13 May 2022
UTC: A Unified Transformer with Inter-Task Contrastive Learning for Visual Dialog Cheng Chen Yudong Zhu Zhenshan Tan Qingrong Cheng Xin Jiang Qun Liu X. Gu 31 39 0 01 May 2022
Modeling Coreference Relations in Visual Dialog Mingxiao Li Marie-Francine Moens 19 9 0 06 Mar 2022
VU-BERT: A Unified framework for Visual Dialog Tong Ye Shijing Si Jianzong Wang Rui Wang Ning Cheng Jing Xiao MLLM 38 5 0 22 Feb 2022
Classification-Regression for Chart Comprehension Matan Levy Rami Ben-Ari Dani Lischinski 25 15 0 29 Nov 2021
ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic Yoad Tewel Yoav Shalev Idan Schwartz Lior Wolf VLM 34 192 0 29 Nov 2021
GoG: Relation-aware Graph-over-Graph Network for Visual Dialog Feilong Chen Xiuyi Chen Fandong Meng Peng Li Jie Zhou 76 34 0 17 Sep 2021
Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions Daniel Rosenberg Itai Gat Amir Feder Roi Reichart AAML 39 16 0 08 Jun 2021
Visual Navigation with Spatial Attention Bar Mayo Tamir Hazan A. Tal EgoV 27 73 0 20 Apr 2021
VGNMN: Video-grounded Neural Module Network to Video-Grounded Language Tasks Hung Le Nancy F. Chen Guosheng Lin MLLM 26 19 0 16 Apr 2021
Learning Reasoning Paths over Semantic Graphs for Video-grounded Dialogues Hung Le Nancy F. Chen Guosheng Lin 36 14 0 01 Mar 2021
DVD: A Diagnostic Dataset for Multi-step Reasoning in Video Grounded Dialogue Hung Le Chinnadhurai Sankar Seungwhan Moon Ahmad Beirami A. Geramifard Satwik Kottur VGen 31 18 0 01 Jan 2021
OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual Contexts Yuxian Meng Shuhe Wang Qinghong Han Xiaofei Sun Fei Wu Rui Yan Jiwei Li 27 28 0 30 Dec 2020
Removing Bias in Multi-modal Classifiers: Regularization by Maximizing Functional Entropies Itai Gat Idan Schwartz A. Schwing Tamir Hazan 55 90 0 21 Oct 2020
BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues Hung Le Doyen Sahoo Nancy F. Chen Guosheng Lin 44 30 0 20 Oct 2020
Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers Shijie Geng Peng Gao Moitreya Chatterjee Chiori Hori Jonathan Le Roux Yongfeng Zhang Hongsheng Li A. Cherian 27 11 0 08 Jul 2020
DAM: Deliberation, Abandon and Memory Networks for Generating Detailed and Non-repetitive Responses in Visual Dialogue X. Jiang Jiahao Yu Yajing Sun Zengchang Qin Zihao Zhu Yue Hu Qi Wu MLLM 43 19 0 07 Jul 2020
VD-BERT: A Unified Vision and Dialog Transformer with BERT Yue Wang Chenyu You Michael R. Lyu Irwin King Caiming Xiong Guosheng Lin 24 102 0 28 Apr 2020
DualVD: An Adaptive Dual Encoding Model for Deep Visual Understanding in Visual Dialogue X. Jiang Jiahao Yu Zengchang Qin Yingying Zhuang Xingxing Zhang Yue Hu Qi Wu 23 70 0 17 Nov 2019
A Simple Baseline for Audio-Visual Scene-Aware Dialog Idan Schwartz A. Schwing Tamir Hazan 24 69 0 11 Apr 2019
Multi-step Reasoning via Recurrent Dual Attention for Visual Dialog Zhe Gan Yu Cheng Ahmed El Kholy Linjie Li Jingjing Liu Jianfeng Gao 11 104 0 01 Feb 2019
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 167 1,464 0 06 Jun 2016