SPICE: Semantic Propositional Image Caption Evaluation

29 July 2016

Papers citing "SPICE: Semantic Propositional Image Caption Evaluation"

50 / 949 papers shown

Title
Progressive Tree-Structured Prototype Network for End-to-End Image Captioning Pengpeng Zeng Jinkuan Zhu Jingkuan Song Lianli Gao VLM 58 29 0 17 Nov 2022
CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal Pre-trained Knowledge Linli Yao Wei Chen Qin Jin VLM 121 11 0 17 Nov 2022
PromptCap: Prompt-Guided Task-Aware Image Captioning Yushi Hu Hang Hua Zhengyuan Yang Weijia Shi Noah A. Smith Jiebo Luo 111 106 0 15 Nov 2022
Pragmatics in Language Grounding: Phenomena, Tasks, and Modeling Approaches Daniel Fried Nicholas Tomlin Jennifer Hu Roma Patel Aida Nematzadeh 84 7 0 15 Nov 2022
Will Large-scale Generative Models Corrupt Future Datasets? Ryuichiro Hataya Han Bao Hiromi Arai 59 58 0 15 Nov 2022
Is my automatic audio captioning system so bad? spider-max: a metric to consider several caption candidates Etienne Labbé Thomas Pellegrini J. Pinquier 32 4 0 14 Nov 2022
Large-Scale Bidirectional Training for Zero-Shot Image Captioning Taehoon Kim Mark A Marsden Pyunghwan Ahn Sangyun Kim Sihaeng Lee Alessandra Sala S. Kim VLM 62 4 0 13 Nov 2022
Investigations in Audio Captioning: Addressing Vocabulary Imbalance and Evaluating Suitability of Language-Centric Performance Metrics Sandeep Reddy Kothinti Dimitra Emmanouilidou 30 3 0 12 Nov 2022
Exploring Train and Test-Time Augmentations for Audio-Language Learning Eungbeom Kim Jinhee Kim Yoori Oh Kyungsu Kim Minju Park Jaeheon Sim J. Lee Kyogu Lee 40 12 0 31 Oct 2022
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention Fenglin Liu Xian Wu Shen Ge Xuancheng Ren Wei Fan Xu Sun Yuexian Zou VLM 108 13 0 28 Oct 2022
Visual Semantic Parsing: From Images to Abstract Meaning Representation M. A. Abdelsalam Zhan Shi Federico Fancellu Kalliopi Basioti Dhaivat Bhatt Vladimir Pavlovic Afsaneh Fazly GNN 78 4 0 26 Oct 2022
Retrieval Augmentation for Commonsense Reasoning: A Unified Approach Wenhao Yu Chenguang Zhu Zhihan Zhang Shuohang Wang Zhuosheng Zhang Yuwei Fang Meng Jiang LRM ReLM 64 19 0 23 Oct 2022
Metric-guided Distillation: Distilling Knowledge from the Metric to Ranker and Retriever for Generative Commonsense Reasoning Xingwei He Yeyun Gong Alex Jin Weizhen Qi Hang Zhang Jian Jiao Bartuer Zhou Biao Cheng Sm Yiu Nan Duan 53 11 0 21 Oct 2022
Image-Text Retrieval with Binary and Continuous Label Supervision Zheng Li Caili Guo Zerun Feng Lei Li Ying Jin Yufeng Zhang VLM 71 4 0 20 Oct 2022
Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text Generation Yu Zhao Jianguo Wei Zhichao Lin Yueheng Sun Meishan Zhang Hao Fei 68 16 0 20 Oct 2022
Prophet Attention: Predicting Attention with Future Attention for Image Captioning Fenglin Liu Xuancheng Ren Xian Wu Wei Fan Yuexian Zou Xu Sun 100 47 0 19 Oct 2022
Probing Cross-modal Semantics Alignment Capability from the Textual Perspective Zheng Ma Shi Zong Mianzhi Pan Jianbing Zhang Shujian Huang Xinyu Dai Jiajun Chen 54 4 0 18 Oct 2022
Social Biases in Automatic Evaluation Metrics for NLG Mingqi Gao Xiaojun Wan 50 3 0 17 Oct 2022
SGRAM: Improving Scene Graph Parsing via Abstract Meaning Representation Woo Suk Choi Y. Heo Byoung-Tak Zhang GNN 73 3 0 17 Oct 2022
EfficientVLM: Fast and Accurate Vision-Language Models via Knowledge Distillation and Modal-adaptive Pruning Tiannan Wang Wangchunshu Zhou Yan Zeng Xinsong Zhang VLM 82 44 0 14 Oct 2022
Plausible May Not Be Faithful: Probing Object Hallucination in Vision-Language Pre-training Wenliang Dai Zihan Liu Ziwei Ji Dan Su Pascale Fung MLLM VLM 86 67 0 14 Oct 2022
Automated Audio Captioning via Fusion of Low- and High- Dimensional Features Jianyuan Sun Xubo Liu Xinhao Mei Mark D. Plumbley V. Kılıç Wenwu Wang 75 3 0 10 Oct 2022
CHARD: Clinical Health-Aware Reasoning Across Dimensions for Text Generation Models Steven Y. Feng Vivek Khetan Bogdan Sacaleanu A. Gershman Eduard H. Hovy LRM 83 10 0 09 Oct 2022
VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature Alignment Shraman Pramanick Li Jing Sayan Nag Jiachen Zhu Hardik Shah Yann LeCun Ramalingam Chellappa 71 22 0 09 Oct 2022
Visualize Before You Write: Imagination-Guided Open-Ended Text Generation Wanrong Zhu An Yan Yujie Lu Wenda Xu Xinze Wang Miguel P. Eckstein William Yang Wang 126 36 0 07 Oct 2022
Progressive Text-to-Image Generation Zhengcong Fei Mingyuan Fan Li Zhu Junshi Huang 148 4 0 05 Oct 2022
Vision+X: A Survey on Multimodal Learning in the Light of Data Ye Zhu Yuehua Wu N. Sebe Yan Yan 98 19 0 05 Oct 2022
Affection: Learning Affective Explanations for Real-World Visual Data Panos Achlioptas M. Ovsjanikov Leonidas Guibas Sergey Tulyakov 102 11 0 04 Oct 2022
Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning Xu Yang Hanwang Zhang Chongyang Gao Jianfei Cai MLLM 74 10 0 04 Oct 2022
Is Reinforcement Learning (Not) for Natural Language Processing: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization Rajkumar Ramamurthy Prithviraj Ammanabrolu Kianté Brantley Jack Hessel R. Sifa Christian Bauckhage Hannaneh Hajishirzi Yejin Choi OffRL 103 250 0 03 Oct 2022
Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity Swapnil Bhosale Rupayan Chakraborty Sunil Kumar Kopparapu 63 1 0 03 Oct 2022
SmallCap: Lightweight Image Captioning Prompted with Retrieval Augmentation R. Ramos Bruno Martins Desmond Elliott Yova Kementchedjhieva VLM 79 89 0 30 Sep 2022
Medical Image Captioning via Generative Pretrained Transformers Alexander Selivanov Oleg Y. Rogov Daniil Chesakov Artem Shelmanov Irina Fedulova Dmitry V. Dylov MedIm 96 62 0 28 Sep 2022
Paraphrasing Is All You Need for Novel Object Captioning Cheng Yang Yao-Hung Hubert Tsai Wanshu Fan Ruslan Salakhutdinov Louis-Philippe Morency Yu-Chiang Frank Wang 75 4 0 25 Sep 2022
DRAMA: Joint Risk Localization and Captioning in Driving Srikanth Malla Chiho Choi Isht Dwivedi Joonhyang Choi Jiachen Li 177 100 0 22 Sep 2022
Assessing ASR Model Quality on Disordered Speech using BERTScore Jimmy Tobin Qisheng Li Subhashini Venugopalan Katie Seaver Richard Cave Katrin Tomanek 56 13 0 21 Sep 2022
Show, Interpret and Tell: Entity-aware Contextualised Image Captioning in Wikipedia K. Nguyen Ali Furkan Biten Andrés Mafla Lluís Gómez Dimosthenis Karatzas 54 11 0 21 Sep 2022
Toward 3D Spatial Reasoning for Human-like Text-based Visual Question Answering Hao Li Jinfa Huang Peng Jin Guoli Song Qi Wu Jie Chen 141 22 0 21 Sep 2022
Learning Distinct and Representative Styles for Image Captioning Qi Chen Chaorui Deng Qi Wu VLM 75 24 0 17 Sep 2022
Belief Revision based Caption Re-ranker with Visual Semantic Information Ahmed Sabir Francesc Moreno-Noguer Pranava Madhyastha Lluís Padró BDL 57 2 0 16 Sep 2022
Distribution Aware Metrics for Conditional Natural Language Generation David M. Chan Yiming Ni David A. Ross Sudheendra Vijayanarasimhan Austin Myers John F. Canny 77 4 0 15 Sep 2022
PreSTU: Pre-Training for Scene-Text Understanding Jihyung Kil Soravit Changpinyo Xi Chen Hexiang Hu Sebastian Goodman Wei-Lun Chao Radu Soricut VLM 191 29 0 12 Sep 2022
Foundations and Trends in Multimodal Machine Learning: Principles, Challenges, and Open Questions Paul Pu Liang Amir Zadeh Louis-Philippe Morency 114 84 0 07 Sep 2022
On Grounded Planning for Embodied Tasks with Language Models Bill Yuchen Lin Chengsong Huang Qian Liu Wenda Gu Sam Sommerer Xiang Ren LM&Ro 114 41 0 29 Aug 2022
Efficient Vision-Language Pretraining with Visual Concepts and Hierarchical Alignment Mustafa Shukor Guillaume Couairon Matthieu Cord VLM CLIP 100 27 0 29 Aug 2022
On Reality and the Limits of Language Data: Aligning LLMs with Human Norms Nigel Collier Fangyu Liu Ehsan Shareghi 48 3 0 25 Aug 2022
An investigation on selecting audio pre-trained models for audio captioning Peiran Yan Sheng-Wei Li 58 0 0 12 Aug 2022
Aesthetic Attributes Assessment of Images with AMANv2 and DPC-CaptionsV2 Xinghui Zhou Xin Jin Jianwen Lv Heng Huang Ming Mao Shuai Cui CoGe 46 0 0 09 Aug 2022
Distinctive Image Captioning via CLIP Guided Group Optimization Youyuan Zhang Jiuniu Wang Hao Wu Wenjia Xu VLM 93 8 0 08 Aug 2022
Prompt Tuning for Generative Multimodal Pretrained Models Han Yang Junyang Lin An Yang Peng Wang Chang Zhou Hongxia Yang VLM LRM VPVLM 86 31 0 04 Aug 2022