SPICE: Semantic Propositional Image Caption Evaluation

29 July 2016

Papers citing "SPICE: Semantic Propositional Image Caption Evaluation"

50 / 949 papers shown

Title
Revisiting Compositional Generalization Capability of Large Language Models Considering Instruction Following Ability Yusuke Sakai Hidetaka Kamigaito Taro Watanabe LRM 22 0 0 18 Jun 2025
DiscoSG: Towards Discourse-Level Text Scene Graph Parsing through Iterative Graph Refinement Shaoqing Lin Chong Teng Fei Li Donghong Ji Lizhen Qu Z. Li 22 0 0 18 Jun 2025
TRIDENT: Temporally Restricted Inference via DFA-Enhanced Neural Traversal Vincenzo Collura Karim Tit Laura Bussi Eleonora Giunchiglia Maxime Cordy 48 0 0 11 Jun 2025
FREE: Fast and Robust Vision Language Models with Early Exits Divya J. Bajpai M. Hanawal VLM 12 0 0 07 Jun 2025
Attention-based transformer models for image captioning across languages: An in-depth survey and evaluation Israa A. Albadarneh Bassam Hammo Omar Al-Kadi VLM 22 0 0 03 Jun 2025
VidEvent: A Large Dataset for Understanding Dynamic Evolution of Events in Videos Baoyu Liang Qile Su Shoutai Zhu Yuchen Liang Chao Tong VGen 46 1 0 03 Jun 2025
Cycle Consistency as Reward: Learning Image-Text Alignment without Human Preferences Hyojin Bahng Caroline Chan F. Durand Phillip Isola EGVM 20 0 0 02 Jun 2025
CLAP-ART: Automated Audio Captioning with Semantic-rich Audio Representation Tokenizer Daiki Takeuchi Binh Thien Nguyen Masahiro Yasuda Yasunori Ohishi Daisuke Niizumi Noboru Harada VLM 25 0 0 01 Jun 2025
Light as Deception: GPT-driven Natural Relighting Against Vision-Language Pre-training Models Ying Yang Jie Zhang Xiao Lv Di Lin Tao Xiang Qing Guo AAML VLM 33 0 0 30 May 2025
VCapsBench: A Large-scale Fine-grained Benchmark for Video Caption Quality Evaluation Shi-Xue Zhang Hongfa Wang Duojun Huang Xin Li Xiaobin Zhu Xu-Cheng Yin CoGe 50 0 0 29 May 2025
RICO: Improving Accuracy and Completeness in Image Recaptioning via Visual Reconstruction Yuchi Wang Yishuo Cai Shuhuai Ren Sihan Yang Linli Yao Yuanxin Liu Y. Zhang Pengfei Wan Xu Sun VLM 44 0 0 28 May 2025
DriveRX: A Vision-Language Reasoning Model for Cross-Task Autonomous Driving Muxi Diao Lele Yang Hongbo Yin Zhexu Wang Yejie Wang Daxin Tian Kongming Liang Zhanyu Ma VLM LRM 59 1 0 27 May 2025
Co-Reinforcement Learning for Unified Multimodal Understanding and Generation Jingjing Jiang Chongjie Si Jun Luo Hanwang Zhang Chao Ma 172 0 0 23 May 2025
Redemption Score: An Evaluation Framework to Rank Image Captions While Redeeming Image Semantics and Language Pragmatics Ashim Dahal Ankit Ghimire Saydul Akbar Murad Nick Rahimi 51 0 0 22 May 2025
Harnessing Caption Detailness for Data-Efficient Text-to-Image Generation Xinran Wang Muxi Diao Yuanzhi Liu Chunyu Wang Kongming Liang Zhanyu Ma Jun Guo 80 0 0 21 May 2025
Exploring The Visual Feature Space for Multimodal Neural Decoding Weihao Xia Cengiz Öztireli 71 0 0 21 May 2025
Hearing from Silence: Reasoning Audio Descriptions from Silent Videos via Vision-Language Model Yong Ren Chenxing Li Le Xu Hao Gu Duzhen Zhang Yujie Chen Manjie Xu Ruibo Fu Shan Yang Dong Yu LRM 82 0 0 19 May 2025
DriveSOTIF: Advancing Perception SOTIF Through Multimodal Large Language Models Shucheng Huang Freda Shi Chen Sun Jiaming Zhong Minghao Ning Yufeng Yang Yukun Lu Hong Wang A. Khajepour 88 0 0 11 May 2025
ArtRAG: Retrieval-Augmented Generation with Structured Context for Visual Art Understanding Shuai Wang Ivona Najdenkoska Hongyi Zhu Stevan Rudinac Monika Kackovic Nachoem Wijnberg M. Worring 323 0 0 09 May 2025
LISAT: Language-Instructed Segmentation Assistant for Satellite Imagery Jerome Quenum Wen-Han Hsieh Tsung-Han Wu Ritwik Gupta Trevor Darrell David M. Chan MLLM VLM 91 0 0 05 May 2025
LecEval: An Automated Metric for Multimodal Knowledge Acquisition in Multimedia Learning Joy Lim Jia Yin Daniel Zhang-Li Jifan Yu Haoyang Li Shangqing Tu ... Zhiyuan Liu Huiqin Liu Lei Hou Juanzi Li Bin Xu 68 0 0 04 May 2025
Vision-Language Models Are Not Pragmatically Competent in Referring Expression Generation Ziqiao Ma Jing Ding Xuejun Zhang Dezhi Luo Jiahe Ding Sihan Xu Yuchen Huang Run Peng Joyce Chai 228 0 0 22 Apr 2025
EarthGPT-X: Enabling MLLMs to Flexibly and Comprehensively Understand Multi-Source Remote Sensing Imagery Wei Zhang Miaoxin Cai Yaqian Ning Tianze Zhang Yin Zhuang He Chen Jun Li Xuerui Mao 101 0 0 17 Apr 2025
FocusedAD: Character-centric Movie Audio Description Xiaojun Ye C. Wang Yiren Song Sheng Zhou Liangcheng Li Jiajun Bu VGen 125 0 0 16 Apr 2025
Generalized Visual Relation Detection with Diffusion Models Kaifeng Gao Siqi Chen Hanwang Zhang Jun Xiao Yueting Zhuang Qianru Sun 87 0 0 16 Apr 2025
Impact of Language Guidance: A Reproducibility Study Cherish Puniani Advika Sinha Shree Singhi Aayan Yadav VLM 198 0 0 10 Apr 2025
Summarizing Speech: A Comprehensive Survey Fabian Retkowski Maike Züfle Andreas Sudmann Dinah Pfau Jan Niehues Alexander Waibel Alexander H. Waibel 96 0 0 10 Apr 2025
Patch Matters: Training-free Fine-grained Image Caption Enhancement via Local Perception Ruotian Peng Haiying He Yake Wei Yandong Wen D. Hu VLM 72 0 0 09 Apr 2025
Group-based Distinctive Image Captioning with Memory Difference Encoding and Attention Jiuniu Wang Wenjia Xu Qingzhong Wang Antoni B. Chan 181 0 0 03 Apr 2025
Shot-by-Shot: Film-Grammar-Aware Training-Free Audio Description Generation Junyu Xie Tengda Han Max Bain Arsha Nagrani Eshika Khandelwal Gül Varol Weidi Xie Andrew Zisserman DiffM VGen 111 0 0 01 Apr 2025
PRISM-0: A Predicate-Rich Scene Graph Generation Framework for Zero-Shot Open-Vocabulary Tasks Abdelrahman Elskhawy Mengze Li Nassir Navab Benjamin Busam VLM 95 1 0 01 Apr 2025
Semantic-Spatial Feature Fusion with Dynamic Graph Refinement for Remote Sensing Image Captioning Maofu Liu Jiahui Liu Xiaokang Zhang 105 1 0 30 Mar 2025
Make Some Noise: Towards LLM audio reasoning and generation using sound tokens Shivam Mehta Nebojsa Jojic Hannes Gamper 68 0 0 28 Mar 2025
Beyond Intermediate States: Explaining Visual Redundancy through Language Dingchen Yang Bowen Cao Anran Zhang Weibo Gu Winston Hu Guang Chen VLM 127 0 0 26 Mar 2025
Rethinking Vision-Language Model in Face Forensics: Multi-Modal Interpretable Forged Face Detector Xiao Guo Xiufeng Song Yue Zhang Xiaohong Liu Xuyang Liu 143 1 0 26 Mar 2025
ImageSet2Text: Describing Sets of Images through Text Piera Riccio F. Galati Kajetan Schweighofer Noa Garcia Nuria Oliver VLM CoGe 114 0 0 25 Mar 2025
AutoDrive-QA- Automated Generation of Multiple-Choice Questions for Autonomous Driving Datasets Using Large Vision-Language Models Boshra Khalili Andrew W.Smyth ELM 125 1 0 20 Mar 2025
Universal Scene Graph Generation Shengqiong Wu Hao Fei Tat-Seng Chua 134 0 0 19 Mar 2025
EmpathyAgent: Can Embodied Agents Conduct Empathetic Actions? Xinyan Chen Jiaxin Ge Hongming Dai Qiang Zhou Qiuxuan Feng Jingtong Hu Yun Wang Jiaming Liu Shanghang Zhang LM&Ro 97 0 0 19 Mar 2025
Solla: Towards a Speech-Oriented LLM That Hears Acoustic Context Junyi Ao Dekun Chen Xiaohai Tian Wenjie Feng Jing Zhang Lu Lu Yansen Wang Haizhou Li Zhizheng Wu AuLLM 114 0 0 19 Mar 2025
Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives Sara Sarto Marcella Cornia Rita Cucchiara 84 1 0 18 Mar 2025
SceneEval: Evaluating Semantic Coherence in Text-Conditioned 3D Indoor Scene Synthesis Hou In Ivan Tam Hou In Derek Pun Austin T. Wang Angel X. Chang Manolis Savva 105 1 0 18 Mar 2025
Disentangling Fine-Tuning from Pre-Training in Visual Captioning with Hybrid Markov Logic Monika Shah Somdeb Sarkhel Deepak Venugopal MLLM BDL VLM 127 0 0 18 Mar 2025
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era Kanzhi Cheng Wenpo Song Jiaxin Fan Zheng Ma Qiushi Sun Fangzhi Xu Chenyang Yan Nuo Chen Jianbing Zhang Jiajun Chen MLLM VLM 95 3 0 16 Mar 2025
T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation Seyed Mohammad Hadi Hosseini Amir Mohammad Izadi Ali Abdollahi Armin Saghafian M. Baghshah EGVM CoGe 86 0 0 14 Mar 2025
FlowTok: Flowing Seamlessly Across Text and Image Tokens Ju He Qihang Yu Qihao Liu Liang-Chieh Chen 146 1 0 13 Mar 2025
SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment Katrin Renz Long Chen Elahe Arani Oleg Sinavski MLLM 211 6 0 12 Mar 2025
SuperCap: Multi-resolution Superpixel-based Image Captioning Henry Senior Luca Rossi Gregory Slabaugh Shanxin Yuan VLM 108 0 0 11 Mar 2025
Mellow: a small audio language model for reasoning Soham Deshmukh Satvik Dixit Rita Singh Bhiksha Raj AuLLM ReLM LRM 111 4 0 11 Mar 2025
ReviewAgents: Bridging the Gap Between Human and AI-Generated Paper Reviews Xian Gao Jiacheng Ruan Jingsheng Gao Ting Liu Yuzhuo Fu 100 3 0 11 Mar 2025