GEST: the Graph of Events in Space and Time as a Common Representation between Vision and Language

22 May 2023

Papers citing "GEST: the Graph of Events in Space and Time as a Common Representation between Vision and Language"

22 / 22 papers shown

Title
Phenaki: Variable Length Video Generation From Open Domain Textual Description Ruben Villegas Mohammad Babaeizadeh Pieter-Jan Kindermans Hernan Moraldo Han Zhang M. Saffar Santiago Castro Julius Kunze D. Erhan DiffM VGen 127 394 0 05 Oct 2022
Make-A-Video: Text-to-Video Generation without Text-Video Data Uriel Singer Adam Polyak Thomas Hayes Xiaoyue Yin Jie An ... Oron Ashual Oran Gafni Devi Parikh Sonal Gupta Yaniv Taigman DiffM VGen 81 1,421 0 29 Sep 2022
(2.5+1)D Spatio-Temporal Scene Graphs for Video Question Answering A. Cherian Chiori Hori Tim K. Marks Jonathan Le Roux 91 38 0 18 Feb 2022
NÜWA: Visual Synthesis Pre-training for Neural visUal World creAtion Chenfei Wu Jian Liang Lei Ji Fan Yang Yuejian Fang Daxin Jiang Nan Duan ViT VGen 72 296 0 24 Nov 2021
Investigating Pretrained Language Models for Graph-to-Text Generation Leonardo F. R. Ribeiro Martin Schmitt Hinrich Schütze Iryna Gurevych 55 218 0 16 Jul 2020
BERTScore: Evaluating Text Generation with BERT Tianyi Zhang Varsha Kishore Felix Wu Kilian Q. Weinberger Yoav Artzi 329 5,845 0 21 Apr 2019
Text Guided Person Image Synthesis Xingran Zhou Siyu Huang Bin Li Yingming Li Jiachen Li Zhongfei Zhang EGVM 54 49 0 10 Apr 2019
A Comprehensive Survey on Graph Neural Networks Zonghan Wu Shirui Pan Fengwen Chen Guodong Long Chengqi Zhang Philip S. Yu FaML GNN AI4TS AI4CE 780 8,554 0 03 Jan 2019
Graph Neural Networks: A Review of Methods and Applications Jie Zhou Ganqu Cui Shengding Hu Zhengyan Zhang Cheng Yang Zhiyuan Liu Lifeng Wang Changcheng Li Maosong Sun AI4CE GNN 1.1K 5,527 0 20 Dec 2018
RSA: Byzantine-Robust Stochastic Aggregation Methods for Distributed Learning from Heterogeneous Datasets Liping Li Canran Xu Xiangnan He Yixin Cao Tat-Seng Chua FedML 114 596 0 09 Nov 2018
Videos as Space-Time Region Graphs Xinyu Wang Abhinav Gupta 106 756 0 05 Jun 2018
End-to-End Dense Video Captioning with Masked Transformer Luowei Zhou Yingbo Zhou Jason J. Corso R. Socher Caiming Xiong 92 529 0 03 Apr 2018
Convolutional Image Captioning J. Aneja Aditya Deshpande Alex Schwing VLM 132 361 0 24 Nov 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 121 4,220 0 25 Jul 2017
SPICE: Semantic Propositional Image Caption Evaluation Peter Anderson Basura Fernando Mark Johnson Stephen Gould EGVM 104 1,918 0 29 Jul 2016
Adversarial Feature Learning Jiasen Lu Philipp Krahenbuhl Trevor Darrell GAN 113 1,611 0 31 May 2016
Generative Adversarial Text to Image Synthesis Scott E. Reed Zeynep Akata Xinchen Yan Lajanugen Logeswaran Bernt Schiele Honglak Lee GAN 205 3,146 0 17 May 2016
Image Captioning with Semantic Attention Quanzeng You Hailin Jin Zhaowen Wang Chen Fang Jiebo Luo VLM 171 1,662 0 12 Mar 2016
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 211 5,497 0 03 May 2015
Towards AI-Complete Question Answering: A Set of Prerequisite Toy Tasks Jason Weston Antoine Bordes S. Chopra Alexander M. Rush Bart van Merriënboer Armand Joulin Tomas Mikolov LRM ELM 150 1,181 0 19 Feb 2015
CIDEr: Consensus-based Image Description Evaluation Ramakrishna Vedantam C. L. Zitnick Devi Parikh 295 4,488 0 20 Nov 2014
Learning to Map Sentences to Logical Form: Structured Classification with Probabilistic Categorial Grammars Luke S. Zettlemoyer M. Collins 121 973 0 04 Jul 2012