Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents

18 August 2020

Yi Yang

Yan Yan

Papers citing "Describing Unseen Videos via Multi-Modal Cooperative Dialog Agents"

3 / 3 papers shown

Title
CLIP-Powered TASS: Target-Aware Single-Stream Network for Audio-Visual Question Answering Yuanyuan Jiang Jianqin Yin 45 1 0 13 May 2024
Learning to Answer Questions in Dynamic Audio-Visual Scenarios Guangyao Li Yake Wei Yapeng Tian Chenliang Xu Ji-Rong Wen Di Hu 29 136 0 26 Mar 2022
A Metamodel and Framework for Artificial General Intelligence From Theory to Practice Hugo Latapie Özkan Kiliç Gaowen Liu Yan Yan Ramana Rao Kompella Pei Wang K. Thórisson Adam Lawrence Yuhong Sun Jayanth Srinivasa AI4CE 20 9 0 11 Feb 2021