Auto-Encoding Scene Graphs for Image Captioning

6 December 2018

Jianfei Cai

Papers citing "Auto-Encoding Scene Graphs for Image Captioning"

50 / 114 papers shown

Title
Tri-FusionNet: Enhancing Image Description Generation with Transformer-based Fusion Network and Dual Attention Mechanism Lakshita Agarwal Bindu Verma ViT 27 0 0 23 Apr 2025
A Causal Adjustment Module for Debiasing Scene Graph Generation Li Liu Shuzhou Sun Shuaifeng Zhi Fan Shi Zhen Liu J. Heikkilä Yongxiang Liu CML 57 2 0 22 Mar 2025
Disentangling Fine-Tuning from Pre-Training in Visual Captioning with Hybrid Markov Logic Monika Shah Somdeb Sarkhel Deepak Venugopal MLLM BDL VLM 85 0 0 18 Mar 2025
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning Jianjie Luo Jingwen Chen Yehao Li Yingwei Pan Jianlin Feng Hongyang Chao Ting Yao DiffM VLM 45 0 0 03 Jan 2025
Situational Scene Graph for Structured Human-centric Situation Understanding Chinthani Sugandhika Chen Li Deepu Rajan Basura Fernando 132 1 0 30 Oct 2024
BCTR: Bidirectional Conditioning Transformer for Scene Graph Generation Peng Hao Xiaobing Wang Yingying Jiang Hanchao Jia Xiaoshuai Hao Shaowei Cui Junhang Wei Xiaoshuai Hao 49 3 0 26 Jul 2024
Towards Semantic Equivalence of Tokenization in Multimodal LLM Shengqiong Wu Hao Fei Xiangtai Li Jiayi Ji Hanwang Zhang Tat-Seng Chua Shuicheng Yan MLLM 59 31 0 07 Jun 2024
A Comprehensive Survey of 3D Dense Captioning: Localizing and Describing Objects in 3D Scenes Ting Yu Xiaojun Lin Shuhui Wang Weiguo Sheng Qingming Huang Jun-chen Yu 3DV 46 10 0 12 Mar 2024
MeaCap: Memory-Augmented Zero-shot Image Captioning Zequn Zeng Yan Xie Hao Zhang Chiyu Chen Zhengjue Wang Boli Chen VLM 25 14 0 06 Mar 2024
Action Scene Graphs for Long-Form Understanding of Egocentric Videos Ivan Rodin Antonino Furnari Kyle Min Subarna Tripathi G. Farinella EgoV 21 12 0 06 Dec 2023
Expanding Scene Graph Boundaries: Fully Open-vocabulary Scene Graph Generation via Visual-Concept Alignment and Retention Zuyao Chen Jinlin Wu Zhen Lei Zhaoxiang Zhang Changwen Chen 25 11 0 18 Nov 2023
Predicate Classification Using Optimal Transport Loss in Scene Graph Generation Sorachi Kurita Satoshi Oyama Itsuki Noda OT 24 0 0 19 Sep 2023
With a Little Help from your own Past: Prototypical Memory Networks for Image Captioning Manuele Barraco Sara Sarto Marcella Cornia Lorenzo Baraldi Rita Cucchiara VLM 53 19 0 23 Aug 2023
The Expressive Power of Graph Neural Networks: A Survey Bingxue Zhang Changjun Fan Shixuan Liu Kuihua Huang Xiang Zhao Jin-Yu Huang Zhong Liu 40 19 0 16 Aug 2023
Improving Scene Graph Generation with Superpixel-Based Interaction Learning Jingyi Wang Can Zhang Jinfa Huang Bo Ren Zhidong Deng 23 7 0 04 Aug 2023
Multimodal Prompt Learning for Product Title Generation with Extremely Limited Labels Bang-ju Yang Fenglin Liu Zheng Li Qingyu Yin Chenyu You Bing Yin Yuexian Zou VLM 26 5 0 05 Jul 2023
A request for clarity over the End of Sequence token in the Self-Critical Sequence Training J. Hu Roberto Cavicchioli Alessandro Capotondi 24 6 0 20 May 2023
Information Screening whilst Exploiting! Multimodal Relation Extraction with Feature Denoising and Multimodal Topic Modeling Shengqiong Wu Hao Fei Yixin Cao Lidong Bing Tat-Seng Chua 34 31 0 19 May 2023
Textual Explanations for Automated Commentary Driving Marc Alexander Kühn Daniel Omeiza Lars Kunze 22 6 0 12 Apr 2023
SPAN: Learning Similarity between Scene Graphs and Images with Transformers Yuren Cong Wentong Liao Bodo Rosenhahn M. Yang 35 6 0 02 Apr 2023
Location-Free Scene Graph Generation Ege Ozsoy Felix Holm Tobias Czempiel Tobias Czempiel Benjamin Busam Nassir Navab Benjamin Busam 42 4 0 20 Mar 2023
GNNFormer: A Graph-based Framework for Cytopathology Report Generation Yangqiaoyu Zhou Kai-Lang Yao Wusuo Li MedIm 11 1 0 17 Mar 2023
Knowledge-augmented Few-shot Visual Relation Detection Tianyu Yu Y. Li Jiaoyan Chen Yinghui Li Haitao Zheng ... Qingbin Liu Wenqiang Liu Dongxiao Huang Bei Wu Yexin Wang 47 6 0 09 Mar 2023
Stacked Cross-modal Feature Consolidation Attention Networks for Image Captioning Mozhgan Pourkeshavarz Shahabedin Nabavi Mohsen Moghaddam M. Shamsfard 29 4 0 08 Feb 2023
SrTR: Self-reasoning Transformer with Visual-linguistic Knowledge for Scene Graph Generation Yuxiang Zhang Zhenbo Liu Shuai Wang ReLM LRM 32 1 0 19 Dec 2022
SceneGATE: Scene-Graph based co-Attention networks for TExt visual question answering Feiqi Cao Siwen Luo F. Núñez Zean Wen Josiah Poon Caren Han GNN 20 4 0 16 Dec 2022
Multi-Task Edge Prediction in Temporally-Dynamic Video Graphs Osman Ulger Julian Wiederer Mohsen Ghafoorian Vasileios Belagiannis Pascal Mettes 35 0 0 06 Dec 2022
How to Describe Images in a More Funny Way? Towards a Modular Approach to Cross-Modal Sarcasm Generation Jie Ruan Yue Wu Xiaojun Wan Yuesheng Zhu 24 1 0 20 Nov 2022
Probabilistic Debiasing of Scene Graphs Bashirul Azam Biswas Qian Ji 22 11 0 11 Nov 2022
Prophet Attention: Predicting Attention with Future Attention for Image Captioning Fenglin Liu Xuancheng Ren Xian Wu Wei Fan Yuexian Zou Xu Sun 24 46 0 19 Oct 2022
Swinv2-Imagen: Hierarchical Vision Transformer Diffusion Models for Text-to-Image Generation Rui Li Weihua Li Yi Yang Hanyu Wei Jianhua Jiang Quan-wei Bai DiffM 19 11 0 18 Oct 2022
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning Xu Yang Hanwang Zhang Chongyang Gao Jianfei Cai MLLM 37 10 0 04 Oct 2022
Unbiased Scene Graph Generation using Predicate Similarities Misaki Ohashi Yusuke Matsui 32 1 0 03 Oct 2022
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning Tao He Lianli Gao Jingkuan Song Yuan-Fang Li VLM 18 50 0 17 Aug 2022
Context-aware Mixture-of-Experts for Unbiased Scene Graph Generation Liguang Zhou Yuhongze Zhou Tin Lun Lam Yangsheng Xu EDL MoE 26 2 0 15 Aug 2022
Rethinking the Evaluation of Unbiased Scene Graph Generation Xingchen Li Long Chen Jian Shao Shaoning Xiao Songyang Zhang Jun Xiao 34 12 0 03 Aug 2022
Integrating Object-aware and Interaction-aware Knowledge for Weakly Supervised Scene Graph Generation Xingchen Li Long Chen Wenbo Ma Yi Yang Jun Xiao 11 26 0 03 Aug 2022
GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features Van-Quang Nguyen Masanori Suganuma Takayuki Okatani ViT 25 106 0 20 Jul 2022
Exploring the sequence length bottleneck in the Transformer for Image Captioning Jiapeng Hu Roberto Cavicchioli Alessandro Capotondi ViT 33 3 0 07 Jul 2022
Comprehending and Ordering Semantics for Image Captioning Yehao Li Yingwei Pan Ting Yao Tao Mei 13 87 0 14 Jun 2022
Visual Transformer for Object Detection M. Yang ViT 25 6 0 01 Jun 2022
Importance Weighted Structure Learning for Scene Graph Generation Daqing Liu M. Bober J. Kittler 19 5 0 14 May 2022
Controllable Image Captioning Luka Maxwell 28 0 0 28 Apr 2022
Attention Mechanism based Cognition-level Scene Understanding Xuejiao Tang Tai Le Quy LRM 23 0 0 17 Apr 2022
On Distinctive Image Captioning via Comparing and Reweighting Jiuniu Wang Wenjia Xu Qingzhong Wang Antoni B. Chan 30 16 0 08 Apr 2022
Two-stream Hierarchical Similarity Reasoning for Image-text Matching Ran Chen Hanli Wang Lei Wang Sam Kwong 13 9 0 10 Mar 2022
Knowledge-enriched Attention Network with Group-wise Semantic for Visual Storytelling Tengpeng Li Hanli Wang Bin He Changan Chen DiffM 19 9 0 10 Mar 2022
Unpaired Image Captioning by Image-level Weakly-Supervised Visual Concept Recognition Peipei Zhu Xiao Wang Yong Luo Zhenglong Sun Wei-Shi Zheng Yaowei Wang C. L. P. Chen 22 12 0 07 Mar 2022
CaMEL: Mean Teacher Learning for Image Captioning Manuele Barraco Matteo Stefanini Marcella Cornia S. Cascianelli Lorenzo Baraldi Rita Cucchiara ViT VLM 25 27 0 21 Feb 2022
Multi-Modal Knowledge Graph Construction and Application: A Survey Xiangru Zhu Zhixu Li Xiaodan Wang Xueyao Jiang Penglei Sun Xuwu Wang Yanghua Xiao N. Yuan 28 154 0 11 Feb 2022