v1v2 (latest)

CIDEr: Consensus-based Image Description Evaluation

20 November 2014

Ramakrishna Vedantam

C. L. Zitnick

Devi Parikh

ArXiv (abs)PDF HTML

Papers citing "CIDEr: Consensus-based Image Description Evaluation"

50 / 2,184 papers shown

Title
Multimodal Learning for Hateful Memes Detection Yi Zhou Zhenhao Chen 87 61 0 25 Nov 2020
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill Assessments Eric Li Jingyi Su Hao Sheng Lawrence Wai 38 2 0 25 Nov 2020
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language Hassan Akbari Hamid Palangi Jianwei Yang Sudha Rao Asli Celikyilmaz Roland Fernandez P. Smolensky Jianfeng Gao Shih-Fu Chang 103 3 0 18 Nov 2020
Inspecting state of the art performance and NLP metrics in image-based medical report generation Pablo Pino Denis Parra Pablo Messina Cecilia Besa S. Uribe MedIm LM&MA 72 8 0 18 Nov 2020
Structural and Functional Decomposition for Personality Image Captioning in a Communication Game Minh-Thu Nguyen Duy Phung Minh Hoai Thien Huu Nguyen 65 4 0 17 Nov 2020
Reinforced Medical Report Generation with X-Linear Attention and Repetition Penalty Wenting Xu Chang Qi Zhenghua Xu Thomas Lukasiewicz MedIm 25 4 0 16 Nov 2020
Multimodal Pretraining for Dense Video Captioning Gabriel Huang Bo Pang Zhenhai Zhu Clara E. Rivera Radu Soricut 96 87 0 10 Nov 2020
Generating Image Descriptions via Sequential Cross-Modal Alignment Guided by Human Gaze Ece Takmaz Sandro Pezzelle Lisa Beinborn Raquel Fernández 85 24 0 09 Nov 2020
Refer, Reuse, Reduce: Generating Subsequent References in Visual and Conversational Contexts Ece Takmaz Mario Giulianelli Sandro Pezzelle Arabella J. Sinclair Raquel Fernández 98 26 0 09 Nov 2020
CapWAP: Captioning with a Purpose Adam Fisch Kenton Lee Ming-Wei Chang J. Clark Regina Barzilay 53 11 0 09 Nov 2020
Attention Beam: An Image Captioning Approach Anubhav Shrimal Tanmoy Chakraborty 3DV 25 4 0 03 Nov 2020
Data-to-Text Generation with Iterative Text Editing Zdeněk Kasner Ondrej Dusek 40 24 0 03 Nov 2020
Dual Attention on Pyramid Feature Maps for Image Captioning Litao Yu Jian Zhang Qiang Wu 108 50 0 02 Nov 2020
Diverse Image Captioning with Context-Object Split Latent Spaces Shweta Mahajan Stefan Roth 64 42 0 02 Nov 2020
Boost Image Captioning with Knowledge Reasoning Feicheng Huang Zhixin Li Haiyang Wei Canlong Zhang Huifang Ma 38 25 0 02 Nov 2020
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning Simon Ging Mohammadreza Zolfaghari Hamed Pirsiavash Thomas Brox ViT CLIP 79 174 0 01 Nov 2020
DeepOpht: Medical Report Generation for Retinal Images via Deep Models and Visual Explanation Jia-Hong Huang Chao-Han Huck Yang Fangyu Liu Meng Tian Yi-Chieh Liu ... Kang Wang Hiromasa Morikawa Hernghua Chang Jesper N. Tegnér M. Worring MedIm 66 48 0 01 Nov 2020
Fusion Models for Improved Visual Captioning M. Kalimuthu Aditya Mogadala Marius Mosbach Dietrich Klakow VLM 58 0 0 28 Oct 2020
Curious Case of Language Generation Evaluation Metrics: A Cautionary Tale Ozan Caglayan Pranava Madhyastha Lucia Specia ELM 99 36 0 26 Oct 2020
Beyond VQA: Generating Multi-word Answer and Rationale to Visual Questions Radhika Dua Sai Srinivas Kancheti V. Balasubramanian LRM 88 22 0 24 Oct 2020
Pre-training Text-to-Text Transformers for Concept-centric Common Sense Wangchunshu Zhou Dong-Ho Lee Ravi Kiran Selvam Seyeon Lee Bill Yuchen Lin Xiang Ren LRM VLM 57 72 0 24 Oct 2020
Open-Domain Dialogue Generation Based on Pre-trained Language Models Yan Zeng J. Nie 31 3 0 24 Oct 2020
A Simple and Efficient Multi-Task Learning Approach for Conditioned Dialogue Generation Yan Zeng J. Nie 69 5 0 21 Oct 2020
WaveTransformer: A Novel Architecture for Audio Captioning Based on Learning Temporal and Time-Frequency Information An Tran Konstantinos Drossos Tuomas Virtanen 106 19 0 21 Oct 2020
TMT: A Transformer-based Modal Translator for Improving Multimodal Sequence Representations in Audio Visual Scene-aware Dialog Wubo Li Dongwei Jiang Wei Zou Xiangang Li 45 6 0 21 Oct 2020
Bayesian Attention Modules Xinjie Fan Shujian Zhang Bo Chen Mingyuan Zhou 183 62 0 20 Oct 2020
A Survey on Deep Learning and Explainability for Automatic Report Generation from Medical Images Pablo Messina Pablo Pino Denis Parra Alvaro Soto Cecilia Besa S. Uribe Marcelo andía C. Tejos Claudia Prieto Daniel Capurro MedIm 127 65 0 20 Oct 2020
BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded Dialogues Hung Le Doyen Sahoo Nancy F. Chen Guosheng Lin 117 31 0 20 Oct 2020
Improving Factual Completeness and Consistency of Image-to-Text Radiology Report Generation Yasuhide Miura Yuhao Zhang Emily Bao Tsai C. Langlotz Dan Jurafsky MedIm 245 159 0 20 Oct 2020
Multimodal Research in Vision and Language: A Review of Current and Emerging Trends Shagun Uppal Sarthak Bhagat Devamanyu Hazarika Navonil Majumdar Soujanya Poria Roger Zimmermann Amir Zadeh 101 6 0 19 Oct 2020
Image Captioning with Visual Object Representations Grounded in the Textual Modality Duvsan Varivs Katsuhito Sudoh Satoshi Nakamura 35 1 0 19 Oct 2020
What is More Likely to Happen Next? Video-and-Language Future Event Prediction Jie Lei Licheng Yu Tamara L. Berg Joey Tianyi Zhou 101 73 0 15 Oct 2020
Semantic Label Smoothing for Sequence to Sequence Problems Michal Lukasik Himanshu Jain A. Menon Seungyeon Kim Srinadh Bhojanapalli Felix X. Yu Sanjiv Kumar AI4TS 42 18 0 15 Oct 2020
Positioning yourself in the maze of Neural Text Generation: A Task-Agnostic Survey Khyathi Chandu A. Black 76 0 0 14 Oct 2020
COMET-ATOMIC 2020: On Symbolic and Neural Commonsense Knowledge Graphs Jena D. Hwang Chandra Bhagavatula Ronan Le Bras Jeff Da Keisuke Sakaguchi Antoine Bosselut Yejin Choi 110 415 0 12 Oct 2020
Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classification Yulin Wang Kangchen Lv Rui Huang Shiji Song Le Yang Gao Huang 3DH 54 151 0 11 Oct 2020
Table Structure Recognition using Top-Down and Bottom-Up Cues S. Raja Ajoy Mondal C. V. Jawahar LMTD 85 79 0 09 Oct 2020
Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements Yongqian Li Gang Li Luheng He Jingjie Zheng Hong Li Zhiwei Guan 71 110 0 08 Oct 2020
Visual News: Benchmark and Challenges in News Image Captioning Fuxiao Liu Yinghan Wang Tianlu Wang Vicente Ordonez VLM 86 116 0 08 Oct 2020
Towards Understanding Sample Variance in Visually Grounded Language Generation: Evaluations and Observations Wanrong Zhu Xinze Wang P. Narayana Kazoo Sone Sugato Basu William Yang Wang 44 8 0 07 Oct 2020
TeaForN: Teacher-Forcing with N-grams Sebastian Goodman Nan Ding Radu Soricut 75 19 0 07 Oct 2020
Like hiking? You probably enjoy nature: Persona-grounded Dialog with Commonsense Expansions Bodhisattwa Prasad Majumder Harsh Jhamtani Taylor Berg-Kirkpatrick Julian McAuley 88 85 0 07 Oct 2020
Support-set bottlenecks for video-text representation learning Mandela Patrick Po-Yao (Bernie) Huang Yuki M. Asano Florian Metze Alexander G. Hauptmann João Henriques Andrea Vedaldi 110 249 0 06 Oct 2020
A Novel Actor Dual-Critic Model for Remote Sensing Image Captioning Ruchika Chavhan Biplab Banerjee Xiaoxiang Zhu S. Chaudhuri 32 8 0 05 Oct 2020
UNISON: Unpaired Cross-lingual Image Captioning Jiahui Gao Yi Zhou Philip L. H. Yu Shafiq Joty Jiuxiang Gu 82 17 0 03 Oct 2020
Partially-Aligned Data-to-Text Generation with Distant Supervision Z. Fu Bei Shi Wai Lam Lidong Bing Zhiyuan Liu 62 23 0 03 Oct 2020
MGD-GAN: Text-to-Pedestrian generation through Multi-Grained Discrimination Shengyu Zhang Donghui Wang Zhou Zhao Siliang Tang Di Xie Leilei Gan 30 0 0 02 Oct 2020
Contrastive Learning of Medical Visual Representations from Paired Images and Text Yuhao Zhang Hang Jiang Yasuhide Miura Christopher D. Manning C. Langlotz MedIm 231 774 0 02 Oct 2020
Teacher-Critical Training Strategies for Image Captioning Yiqing Huang Jiansheng Chen VLM 55 9 0 30 Sep 2020
Finding It at Another Side: A Viewpoint-Adapted Matching Encoder for Change Captioning Xiangxi Shi Xu Yang Jiuxiang Gu Shafiq Joty Jianfei Cai 71 53 0 30 Sep 2020