Consensus Graph Representation Learning for Better Grounded Image Captioning

2 December 2021

Papers citing "Consensus Graph Representation Learning for Better Grounded Image Captioning"

46 / 46 papers shown

Title
Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing Hao Fei Shengqiong Wu Hao Zhang Tat-Seng Chua Shuicheng Yan 149 41 0 31 Dec 2024
Relational Graph Learning for Grounded Video Description Generation Wenqiao Zhang Xinze Wang Siliang Tang Haizhou Shi Haochen Shi Jun Xiao Yueting Zhuang Wenjie Wang 46 33 0 02 Dec 2021
Deconfounded Image Captioning: A Causal Retrospect Xu Yang Hanwang Zhang Jianfei Cai CML 42 125 0 09 Mar 2020
Learning to Generate Grounded Visual Captions without Localization Supervision Chih-Yao Ma Yannis Kalantidis Ghassan AlRegib Peter Vajda Marcus Rohrbach Z. Kira SSL 38 10 0 01 Jun 2019
Exact Adversarial Attack to Image Captioning via Structured Output Learning with Latent Variables Yan Xu Baoyuan Wu Fumin Shen Yanbo Fan Yong Zhang Heng Tao Shen Wei Liu AAML 55 56 0 10 May 2019
Memory-Attended Recurrent Network for Video Captioning Wenjie Pei Jiyuan Zhang Xiangrong Wang Lei Ke Xiaoyong Shen Yu-Wing Tai 99 200 0 10 May 2019
Scene Graph Generation with External Knowledge and Image Reconstruction Jiuxiang Gu Handong Zhao Zhe Lin Sheng Li Jianfei Cai Mingyang Ling 59 294 0 01 Apr 2019
Unpaired Image Captioning via Scene Graph Alignments Jiuxiang Gu Shafiq Joty Jianfei Cai Handong Zhao Xu Yang G. Wang GNN 54 174 0 26 Mar 2019
Grounded Video Description Luowei Zhou Yannis Kalantidis Xinlei Chen Jason J. Corso Marcus Rohrbach 78 193 0 17 Dec 2018
Auto-Encoding Scene Graphs for Image Captioning Xu Yang Kaihua Tang Hanwang Zhang Jianfei Cai 149 699 0 06 Dec 2018
Explainable and Explicit Visual Reasoning over Scene Graphs Jiaxin Shi Hanwang Zhang Juan-Zi Li OCL 187 234 0 05 Dec 2018
Engaging Image Captioning Via Personality Kurt Shuster Samuel Humeau Hexiang Hu Antoine Bordes Jason Weston 69 152 0 25 Oct 2018
Exploring Visual Relationship for Image Captioning Ting Yao Yingwei Pan Yehao Li Tao Mei 74 833 0 19 Sep 2018
Graph Convolutional Networks for Text Classification Liang Yao Chengsheng Mao Yuan Luo GNN 89 1,822 0 15 Sep 2018
Object Hallucination in Image Captioning Anna Rohrbach Lisa Anne Hendricks Kaylee Burns Trevor Darrell Kate Saenko 179 427 0 06 Sep 2018
Graph R-CNN for Scene Graph Generation Jianwei Yang Jiasen Lu Stefan Lee Dhruv Batra Devi Parikh GNN 105 843 0 01 Aug 2018
Clinical Text Classification with Rule-based Features and Knowledge-guided Convolutional Neural Networks Liang Yao Chengsheng Mao Yuan Luo 36 151 0 17 Jul 2018
Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech Aditya Deshpande J. Aneja Liwei Wang Alex Schwing David A. Forsyth 51 148 0 31 May 2018
Exploiting Semantics in Neural Machine Translation with Graph Convolutional Networks Diego Marcheggiani Jasmijn Bastings Ivan Titov GNN NAI 84 187 0 23 Apr 2018
Neural Baby Talk Jiasen Lu Jianwei Yang Dhruv Batra Devi Parikh VLM 230 435 0 27 Mar 2018
Attacking Visual Language Grounding with Adversarial Examples: A Case Study on Neural Image Captioning Hongge Chen Huan Zhang Pin-Yu Chen Jinfeng Yi Cho-Jui Hsieh GAN AAML 73 49 0 06 Dec 2017
Neural Motifs: Scene Graph Parsing with Global Context Rowan Zellers Mark Yatskar Sam Thomson Yejin Choi GNN 83 996 0 17 Nov 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 117 4,214 0 25 Jul 2017
Actor-Critic Sequence Training for Image Captioning Li Zhang Flood Sung Feng Liu Tao Xiang S. Gong Yongxin Yang Timothy M. Hospedales 48 111 0 29 Jun 2017
Graph Convolutional Matrix Completion Rianne van den Berg Thomas Kipf Max Welling GNN 110 1,256 0 07 Jun 2017
Weakly-supervised Visual Grounding of Phrases with Linguistic Structures Fanyi Xiao Leonid Sigal Yong Jae Lee 63 139 0 03 May 2017
Attend to You: Personalized Image Captioning with Context Sequence Memory Networks C. C. Park Byeongchang Kim Gunhee Kim 52 173 0 21 Apr 2017
Deep Reinforcement Learning-based Image Captioning with Embedding Reward Zhou Ren Xiaoyu Wang Ning Zhang Xutao Lv Li Li 52 324 0 12 Apr 2017
A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection Xinyu Wang Abhinav Shrivastava Abhinav Gupta ObjD 80 572 0 11 Apr 2017
Towards Context-aware Interaction Recognition Bohan Zhuang Lingqiao Liu Chunhua Shen Ian Reid HAI 55 143 0 18 Mar 2017
Encoding Sentences with Graph Convolutional Networks for Semantic Role Labeling Diego Marcheggiani Ivan Titov GNN NAI 67 832 0 14 Mar 2017
Visual Translation Embedding Network for Visual Relation Detection Hanwang Zhang Zawlin Kyaw Shih-Fu Chang Tat-Seng Chua ViT 224 560 0 27 Feb 2017
Scene Graph Generation by Iterative Message Passing Danfei Xu Yuke Zhu Chris Choy Li Fei-Fei GNN 3DV 78 1,220 0 10 Jan 2017
Self-critical Sequence Training for Image Captioning Steven J. Rennie E. Marcheret Youssef Mroueh Jerret Ross Vaibhava Goel 107 1,887 0 02 Dec 2016
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Zhuowen Tu Kaiming He 506 10,318 0 16 Nov 2016
Spatio-Temporal Attention Models for Grounded Video Captioning M. Zanfir Elisabeta Marinoiu C. Sminchisescu 84 50 0 17 Oct 2016
Graph-Structured Representations for Visual Question Answering Damien Teney Lingqiao Liu Anton Van Den Hengel GNN NAI 97 420 0 19 Sep 2016
SPICE: Semantic Propositional Image Caption Evaluation Peter Anderson Basura Fernando Mark Johnson Stephen Gould EGVM 92 1,914 0 29 Jul 2016
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 290 1,465 0 06 Jun 2016
Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations Ranjay Krishna Yuke Zhu Oliver Groth Justin Johnson Kenji Hata ... Yannis Kalantidis Li Li David A. Shamma Michael S. Bernstein Fei-Fei Li 200 5,740 0 23 Feb 2016
Semantic Object Parsing with Local-Global Long Short-Term Memory Xiaodan Liang Xiaohui Shen Donglai Xiang Jiashi Feng Liang Lin Shuicheng Yan 59 185 0 14 Nov 2015
Grounding of Textual Phrases in Images by Reconstruction Anna Rohrbach Marcus Rohrbach Ronghang Hu Trevor Darrell Bernt Schiele 73 497 0 12 Nov 2015
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren Kaiming He Ross B. Girshick Jian Sun AIMat ObjD 493 62,243 0 04 Jun 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 190 5,464 0 03 May 2015
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Ke Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhutdinov R. Zemel Yoshua Bengio DiffM 334 10,067 0 10 Feb 2015
Show and Tell: A Neural Image Caption Generator Oriol Vinyals Alexander Toshev Samy Bengio D. Erhan 3DV 235 6,026 0 17 Nov 2014