Exploring Visual Relationship for Image Captioning

19 September 2018

Ting Yao

Yingwei Pan

Yehao Li

Tao Mei

ArXiv (abs)PDF HTML

Papers citing "Exploring Visual Relationship for Image Captioning"

50 / 321 papers shown

Title
Hierarchical Aligned Multimodal Learning for NER on Tweet Posts Peipei Liu Hong Li Yimo Ren Jie Liu Shuaizong Si Hongsong Zhu Limin Sun 72 5 0 15 May 2023
Transforming Visual Scene Graphs to Image Captions Xu Yang Jiawei Peng Zihua Wang Haiyang Xu Qinghao Ye Chenliang Li Mingshi Yan Feisi Huang Zhangzikang Li Yu Zhang 97 21 0 03 May 2023
Multimodal Graph Transformer for Multimodal Question Answering Xuehai He Xin Eric Wang 88 9 0 30 Apr 2023
Relational Context Learning for Human-Object Interaction Detection Sanghyun Kim Deunsol Jung Minsu Cho 122 40 0 11 Apr 2023
DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via Word-Region Alignment Lewei Yao Jianhua Han Xiaodan Liang Danqian Xu Wei Zhang Zhenguo Li Hang Xu VLM ObjD CLIP 121 79 0 10 Apr 2023
GNNFormer: A Graph-based Framework for Cytopathology Report Generation Yangqiaoyu Zhou Kai-Lang Yao Wusuo Li MedIm 39 1 0 17 Mar 2023
Graph Neural Networks in Vision-Language Image Understanding: A Survey Henry Senior Greg Slabaugh Shanxin Yuan Luca Rossi GNN 89 21 0 07 Mar 2023
ConZIC: Controllable Zero-shot Image Captioning by Sampling-Based Polishing Zequn Zeng Hao Zhang Zhengjue Wang Ruiying Lu Dongsheng Wang Bo Chen BDL DiffM 59 33 0 04 Mar 2023
Interpretable Medical Image Visual Question Answering via Multi-Modal Relationship Graph Learning Xinyue Hu Lin Gu Kazuma Kobayashi Qi A. An Qingyu Chen Zhiyong Lu Chang Su Tatsuya Harada Yingying Zhu GNN 71 10 0 19 Feb 2023
Retrieval-augmented Image Captioning R. Ramos Desmond Elliott Bruno Martins VLM 80 29 0 16 Feb 2023
Towards Local Visual Modeling for Image Captioning Yiwei Ma Jiayi Ji Xiaoshuai Sun Yiyi Zhou Rongrong Ji ViT 100 79 0 13 Feb 2023
Stacked Cross-modal Feature Consolidation Attention Networks for Image Captioning Mozhgan Pourkeshavarz Shahabedin Nabavi Mohsen Moghaddam M. Shamsfard 84 4 0 08 Feb 2023
Transfer Knowledge from Natural Language to Electrocardiography: Can We Detect Cardiovascular Disease Through Language Models? Jielin Qiu William Jongwon Han Jiacheng Zhu Mengdi Xu Michael A. Rosenberg Emerson Liu Douglas Weber Ding Zhao 86 23 0 21 Jan 2023
What You Say Is What You Show: Visual Narration Detection in Instructional Videos Kumar Ashutosh Rohit Girdhar Lorenzo Torresani Kristen Grauman 105 4 0 05 Jan 2023
HGAN: Hierarchical Graph Alignment Network for Image-Text Retrieval Jie Guo Meiting Wang Yan Zhou Bin Song Yuhao Chi Wei-liang Fan Jianglong Chang 75 15 0 16 Dec 2022
Semantic-Conditional Diffusion Networks for Image Captioning Jianjie Luo Yehao Li Yingwei Pan Ting Yao Jianlin Feng Hongyang Chao Tao Mei DiffM 89 74 0 06 Dec 2022
Uncertainty-Aware Image Captioning Zhengcong Fei Mingyuan Fan Li Zhu Junshi Huang Xiaoming Wei Xiaolin K. Wei UQLM 69 13 0 30 Nov 2022
Exploring Discrete Diffusion Models for Image Captioning Zixin Zhu Yixuan Wei Jianfeng Wang Zhe Gan Zheng Zhang Le Wang G. Hua Lijuan Wang Zicheng Liu Han Hu DiffM VLM 100 24 0 21 Nov 2022
How to Describe Images in a More Funny Way? Towards a Modular Approach to Cross-Modal Sarcasm Generation Jie Ruan Yue Wu Xiaojun Wan Yuesheng Zhu 61 1 0 20 Nov 2022
OSIC: A New One-Stage Image Captioner Coined Bo Wang Zhao Zhang Ming Zhao Xiaojie Jin Mingliang Xu Meng Wang VLM 74 4 0 04 Nov 2022
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention Fenglin Liu Xian Wu Shen Ge Xuancheng Ren Wei Fan Xu Sun Yuexian Zou VLM 108 13 0 28 Oct 2022
Describing Sets of Images with Textual-PCA Oded Hupert Idan Schwartz Lior Wolf CoGe 58 1 0 21 Oct 2022
Prophet Attention: Predicting Attention with Future Attention for Image Captioning Fenglin Liu Xuancheng Ren Xian Wu Wei Fan Yuexian Zou Xu Sun 105 48 0 19 Oct 2022
Graph Neural Network Surrogate for Seismic Reliability Analysis of Highway Bridge Systems Tong Liu Hadi Meidani 43 11 0 12 Oct 2022
Semantics-Consistent Cross-domain Summarization via Optimal Transport Alignment Jielin Qiu Jiacheng Zhu Mengdi Xu Franck Dernoncourt Trung Bui Zhaowen Wang Yue Liu Ding Zhao Hailin Jin 75 11 0 10 Oct 2022
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning Xu Yang Hanwang Zhang Chongyang Gao Jianfei Cai MLLM 81 10 0 04 Oct 2022
A Survey on Graph Neural Networks and Graph Transformers in Computer Vision: A Task-Oriented Perspective Chaoqi Chen Yushuang Wu Qiyuan Dai Hong-Yu Zhou Mutian Xu Sibei Yang Xiaoguang Han Yizhou Yu ViT MedIm AI4CE 137 80 0 27 Sep 2022
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering Hao Li Jinfa Huang Peng Jin Guoli Song Qi Wu Jie Chen 141 22 0 21 Sep 2022
Learning Distinct and Representative Styles for Image Captioning Qi Chen Chaorui Deng Qi Wu VLM 75 24 0 17 Sep 2022
Scene Graph Modification as Incremental Structure Expanding Xuming Hu Zhijiang Guo Yuwei Fu Lijie Wen Philip S. Yu 62 2 0 15 Sep 2022
Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions Paul Pu Liang Amir Zadeh Louis-Philippe Morency 114 88 0 07 Sep 2022
RLIP: Relational Language-Image Pre-training for Human-Object Interaction Detection Hangjie Yuan Jianwen Jiang Samuel Albanie Tao Feng Ziyuan Huang Dong Ni Mingqian Tang VLM 110 55 0 05 Sep 2022
Towards Open-vocabulary Scene Graph Generation with Prompt-based Finetuning Tao He Lianli Gao Jingkuan Song Yuan-Fang Li VLM 88 53 0 17 Aug 2022
Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning J. Hu Roberto Cavicchioli Alessandro Capotondi 128 22 0 13 Aug 2022
Distinctive Image Captioning via CLIP Guided Group Optimization Youyuan Zhang Jiuniu Wang Hao Wu Wenjia Xu VLM 95 8 0 08 Aug 2022
Retrieval-Augmented Transformer for Image Captioning Sara Sarto Marcella Cornia Lorenzo Baraldi Rita Cucchiara 88 59 0 26 Jul 2022
Rethinking the Reference-based Distinctive Image Captioning Yangjun Mao Long Chen Zhihong Jiang Dong Zhang Zhimeng Zhang Jian Shao Jun Xiao DiffM 83 22 0 22 Jul 2022
Zero-Shot Video Captioning with Evolving Pseudo-Tokens Yoad Tewel Yoav Shalev Roy Nadler Idan Schwartz Lior Wolf 61 27 0 22 Jul 2022
Efficient Modeling of Future Context for Image Captioning Zhengcong Fei Junshi Huang Xiaoming Wei Xiaolin K. Wei 76 15 0 22 Jul 2022
GRIT: Faster and Better Image captioning Transformer Using Dual Visual Features Van-Quang Nguyen Masanori Suganuma Takayuki Okatani ViT 84 114 0 20 Jul 2022
Exploring the sequence length bottleneck in the Transformer for Image Captioning Jiapeng Hu Roberto Cavicchioli Alessandro Capotondi ViT 55 3 0 07 Jul 2022
Bypass Network for Semantics Driven Image Paragraph Captioning Qinjie Zheng Chaoyue Wang Dadong Wang 120 1 0 21 Jun 2022
Comprehending and Ordering Semantics for Image Captioning Yehao Li Yingwei Pan Ting Yao Tao Mei 82 92 0 14 Jun 2022
Exploring Structure-aware Transformer over Interaction Proposals for Human-Object Interaction Detection Y. Zhang Yingwei Pan Ting Yao Rui Huang Tao Mei C. Chen ViT 100 72 0 13 Jun 2022
R4D: Utilizing Reference Objects for Long-Range Distance Estimation Yingwei Li Tiffany Chen Maya Kabkab Ruichi Yu Longlong Jing Yurong You Hang Zhao 31 4 0 10 Jun 2022
Modeling Image Composition for Complex Scene Generation Zuopeng Yang Daqing Liu Chaoyue Wang J. Yang Dacheng Tao ViT 113 52 0 02 Jun 2022
Visual Transformer for Object Detection M. Yang ViT 59 6 0 01 Jun 2022
Prompt-based Learning for Unpaired Image Captioning Peipei Zhu Tianlin Li Lin Zhu Zhenglong Sun Weishi Zheng Yaowei Wang Chen Chen VLM 97 33 0 26 May 2022
Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning Chia-Wen Kuo Z. Kira 97 55 0 09 May 2022
Controllable Image Captioning Luka Maxwell 99 0 0 28 Apr 2022