Title
VIST-GPT: Ushering in the Era of Visual Storytelling with LLMs? Mohamed Gado Towhid Taliee Muhammad Memon D. Ignatov Radu Timofte 70 0 0 27 Apr 2025
Natural Language Generation from Visual Sequences: Challenges and Future Directions Aditya K Surikuchi Raquel Fernández Sandro Pezzelle EGVM 210 0 0 18 Feb 2025
VideoAuteur: Towards Long Narrative Video Generation Junfei Xiao Feng Cheng Lu Qi Liangke Gui Jiepeng Cen Zhibei Ma Alan L. Yuille Lu Jiang VGen 58 2 0 10 Jan 2025
Progress-Aware Video Frame Captioning Zihui Xue Joungbin An Xitong Yang Kristen Grauman 100 1 0 03 Dec 2024
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models Peng Xia Siwei Han Shi Qiu Yiyang Zhou Zhaoyang Wang ... Chenhang Cui Mingyu Ding Linjie Li Lijuan Wang Huaxiu Yao 54 10 0 14 Oct 2024
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark Wenhao Chai Enxin Song Y. Du Chenlin Meng Vashisht Madhavan Omer Bar-Tal Jeng-Neng Hwang Saining Xie Christopher D. Manning 3DV 84 25 0 04 Oct 2024
MIO: A Foundation Model on Multimodal Tokens Zekun Wang King Zhu Chunpu Xu Wangchunshu Zhou Jiaheng Liu ... Yuanxing Zhang Ge Zhang Ke Xu Jie Fu Wenhao Huang MLLM AuLLM 60 11 0 26 Sep 2024
Generating Visual Stories with Grounded and Coreferent Characters Danyang Liu Mirella Lapata Frank Keller 23 2 0 20 Sep 2024
GalleryGPT: Analyzing Paintings with Large Multimodal Models Yi Bin Wenhao Shi Yujuan Ding Zhiqiang Hu Zheng Wang Yang Yang See-Kiong Ng H. Shen MLLM 30 11 0 01 Aug 2024
Holistic Evaluation for Interleaved Text-and-Image Generation Minqian Liu Zhiyang Xu Zihao Lin Trevor Ashby Joy Rimchala Jiaxin Zhang Lifu Huang EGVM 41 7 0 20 Jun 2024
VideoPrism: A Foundational Visual Encoder for Video Understanding Long Zhao N. B. Gundavarapu Liangzhe Yuan Hao Zhou Shen Yan ... Huisheng Wang Hartwig Adam Mikhail Sirotenko Ting Liu Boqing Gong VGen 41 29 0 20 Feb 2024
Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models Yupan Huang Zaiqiao Meng Fangyu Liu Yixuan Su Nigel Collier Yutong Lu MLLM 41 22 0 31 Aug 2023
ViCo: Engaging Video Comment Generation with Human Preference Rewards Yuchong Sun Bei Liu Xu Chen Ruihua Song Jianlong Fu VGen 22 2 0 22 Aug 2023
Text-Only Training for Visual Storytelling Yuechen Wang Wen-gang Zhou Zhenbo Lu Houqiang Li DiffM 28 2 0 17 Aug 2023
Visual Reasoning: from State to Transformation Xin Hong Yanyan Lan Liang Pang J. Guo Xueqi Cheng LRM 16 3 0 02 May 2023
A-CAP: Anticipation Captioning with Commonsense Knowledge D. Vo Quoc-An Luong Akihiro Sugimoto Hideki Nakayama 24 2 0 13 Apr 2023
VEIL: Vetting Extracted Image Labels from In-the-Wild Captions for Weakly-Supervised Object Detection Arushi Rai Adriana Kovashka 27 0 0 16 Mar 2023
Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey Yuxin Wang Jieru Lin Zhiwei Yu Wei Hu Börje F. Karlsson 20 17 0 09 Dec 2022
Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models Xichen Pan Pengda Qin Yuhong Li Hui Xue Wenhu Chen DiffM 21 62 0 20 Nov 2022
Multi-VQG: Generating Engaging Questions for Multiple Images Min-Hsuan Yeh Vicent Chen Ting-Hao Haung Lun-Wei Ku CoGe 18 7 0 14 Nov 2022
Bloom Library: Multimodal Datasets in 300+ Languages for a Variety of Downstream Tasks Colin Leong Joshua Nemecek Jacob Mansdorfer Anna Filighera A. Owodunni Daniel Whitenack VLM AI4CE 51 24 0 26 Oct 2022
Vision Transformer Based Model for Describing a Set of Images as a Story Zainy M. Malakan Ghulam Mubashar Hassan Ajmal Saeed Mian ViT 25 6 0 06 Oct 2022
Every picture tells a story: Image-grounded controllable stylistic story generation Holy Lovenia Bryan Wilie Romain Barraud Samuel Cahyawijaya Willy Chung Pascale Fung 26 8 0 04 Sep 2022
Of Human Criteria and Automatic Metrics: A Benchmark of the Evaluation of Story Generation Cyril Chhun Pierre Colombo Chloé Clavel Fabian M. Suchanek 53 50 0 24 Aug 2022
Let's Talk! Striking Up Conversations via Conversational Visual Question Generation Shih-Han Chan Tsai-Lun Yang Yun-Wei Chu Chi-Yang Hsu Ting-Hao 'Kenneth' Huang Yu-Shian Chiu Lun-Wei Ku 18 1 0 19 May 2022
Shifting More Attention to Visual Backbone: Query-modulated Refinement Networks for End-to-End Visual Grounding Jiabo Ye Junfeng Tian Ming Yan Xiaoshan Yang Xuwu Wang Ji Zhang Liang He Xin Lin ObjD 11 61 0 29 Mar 2022
Affective Feedback Synthesis Towards Multimodal Text and Image Data Puneet Kumar Gaurav Bhatt Omkar Ingle Daksh Goyal Balasubramanian Raman EGVM 27 3 0 23 Mar 2022
Knowledge-enriched Attention Network with Group-wise Semantic for Visual Storytelling Tengpeng Li Hanli Wang Bin He Changan Chen DiffM 21 9 0 10 Mar 2022
ViNTER: Image Narrative Generation with Emotion-Arc-Aware Transformer Kohei Uehara Yusuke Mori Yusuke Mukuta Tatsuya Harada 24 6 0 15 Feb 2022
Multi-Modal Knowledge Graph Construction and Application: A Survey Xiangru Zhu Zhixu Li Xiaodan Wang Xueyao Jiang Penglei Sun Xuwu Wang Yanghua Xiao N. Yuan 28 154 0 11 Feb 2022
A Survey of Natural Language Generation Chenhe Dong Hai-Tao Zheng Haifan Gong M. Chen Junxin Li Ying Shen Min Yang 3DV 24 43 0 22 Dec 2021
Contextualized Scene Imagination for Generative Commonsense Reasoning Peifeng Wang Jonathan Zamora Junfeng Liu Filip Ilievski Muhao Chen Xiang Ren ReLM LRM 35 16 0 12 Dec 2021
Improving Graph-based Sentence Ordering with Iteratively Predicted Pairwise Orderings Shaopeng Lai Ante Wang Fandong Meng Jie Zhou Yubin Ge Jiali Zeng Junfeng Yao Degen Huang Jinsong Su 25 8 0 13 Oct 2021
EVOQUER: Enhancing Temporal Grounding with Video-Pivoted BackQuery Generation Yanjun Gao Lulu Liu Jason Wang Xin Chen Huayan Wang Rui Zhang 31 1 0 10 Sep 2021
Weakly Supervised Temporal Adjacent Network for Language Grounding Yuechen Wang Jiajun Deng Wen-gang Zhou Houqiang Li 26 67 0 30 Jun 2021
MERLOT: Multimodal Neural Script Knowledge Models Rowan Zellers Ximing Lu Jack Hessel Youngjae Yu J. S. Park Jize Cao Ali Farhadi Yejin Choi VLM LRM 22 372 0 04 Jun 2021
NAREOR: The Narrative Reordering Problem Varun Gangal Steven Y. Feng Malihe Alikhani Teruko Mitamura Eduard H. Hovy 27 26 0 14 Apr 2021
MELINDA: A Multimodal Dataset for Biomedical Experiment Method Classification Te-Lin Wu Shikhar Singh S. Paul Gully A. Burns Nanyun Peng 24 18 0 16 Dec 2020
BERT-hLSTMs: BERT and Hierarchical LSTMs for Visual Storytelling Jing Su Qingyun Dai Frank Guerin Mian Zhou 24 24 0 03 Dec 2020
Text Style Transfer: A Review and Experimental Evaluation Zhiqiang Hu Roy Ka-Wei Lee Charu C. Aggarwal Aston Zhang AI4TS 42 26 0 24 Oct 2020
Learning to Sort Image Sequences via Accumulated Temporal Differences Gagan Kanojia Shanmuganathan Raman 19 0 0 22 Oct 2020
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes Douwe Kiela Hamed Firooz Aravind Mohan Vedanuj Goswami Amanpreet Singh Pratik Ringshia Davide Testuggine 34 580 0 10 May 2020
Deep Attentive Ranking Networks for Learning to Order Sentences Pawan Kumar Dhanajit Brahma H. Karnick Piyush Rai 10 45 0 31 Dec 2019
Keep it Consistent: Topic-Aware Storytelling from an Image Stream via Iterative Multi-agent Communication Ruize Wang Zhongyu Wei Ying Cheng Piji Li Haijun Shan Ji Zhang Qi Zhang Xuanjing Huang VGen DiffM 17 13 0 11 Nov 2019
Informative Visual Storytelling with Cross-modal Rules Jiacheng Li Haizhou Shi Siliang Tang Fei Wu Yueting Zhuang 18 24 0 07 Jul 2019
Unsupervised Discovery of Multimodal Links in Multi-image, Multi-sentence Documents Jack Hessel Lillian Lee David M. Mimno 23 30 0 16 Apr 2019
Evaluating Text-to-Image Matching using Binary Image Selection (BISON) Hexiang Hu Ishan Misra L. V. D. van der Maaten 24 22 0 19 Jan 2019
StoryGAN: A Sequential Conditional GAN for Story Visualization Yitong Li Zhe Gan Yelong Shen Jingjing Liu Yu Cheng Yuexin Wu Lawrence Carin David Carlson Jianfeng Gao 24 226 0 06 Dec 2018
A Knowledge-Grounded Multimodal Search-Based Conversational Agent Shubham Agarwal Ondrej Dusek Ioannis Konstas Verena Rieser 26 22 0 20 Oct 2018
A Memory Network Approach for Story-based Temporal Summarization of 360° Videos Sangho Lee Jinyoung Sung Youngjae Yu Gunhee Kim 16 68 0 08 May 2018