v1v2 (latest)

CIDEr: Consensus-based Image Description Evaluation

20 November 2014

Ramakrishna Vedantam

C. L. Zitnick

Devi Parikh

ArXiv (abs)PDF HTML

Papers citing "CIDEr: Consensus-based Image Description Evaluation"

50 / 2,184 papers shown

Title
Improving Question Answering Model Robustness with Synthetic Adversarial Data Generation Max Bartolo Tristan Thrush Robin Jia Sebastian Riedel Pontus Stenetorp Douwe Kiela AAML 99 106 0 18 Apr 2021
Concadia: Towards Image-Based Text Generation with a Purpose Elisa Kreiss Fei Fang Noah D. Goodman Christopher Potts 136 23 0 16 Apr 2021
VGNMN: Video-grounded Neural Module Network to Video-Grounded Language Tasks Hung Le Nancy F. Chen Guosheng Lin MLLM 83 19 0 16 Apr 2021
Sentence-Permuted Paragraph Generation Wenhao Yu Chenguang Zhu Tong Zhao Zhichun Guo Meng Jiang 53 11 0 15 Apr 2021
Video Question Answering with Phrases via Semantic Roles Arka Sadhu Kan Chen Ram Nevatia 51 16 0 08 Apr 2021
Automatic Generation of Descriptive Titles for Video Clips Using Deep Learning Soheyla Amirian Khaled Rasheed T. Taha H. Arabnia VLM VGen 49 23 0 07 Apr 2021
Compressing Visual-linguistic Model via Knowledge Distillation Zhiyuan Fang Jianfeng Wang Xiaowei Hu Lijuan Wang Yezhou Yang Zicheng Liu VLM 118 99 0 05 Apr 2021
FixMyPose: Pose Correctional Captioning and Retrieval Hyounghun Kim Abhaysinh Zala Graham Burri Joey Tianyi Zhou 53 16 0 04 Apr 2021
Towards General Purpose Vision Systems Tanmay Gupta Amita Kamath Aniruddha Kembhavi Derek Hoiem 100 53 0 01 Apr 2021
Learning Domain Adaptation with Model Calibration for Surgical Report Generation in Robotic Surgery Mengya Xu Mobarakol Islam C. Lim Hongliang Ren OOD MedIm 71 29 0 31 Mar 2021
Embedding API Dependency Graph for Neural Code Generation Chen Lyu Ruyun Wang Hongyu Zhang Hanwen Zhang Songlin Hu GNN 62 20 0 29 Mar 2021
On Hallucination and Predictive Uncertainty in Conditional Language Generation Yijun Xiao Wenjie Wang HILM 175 192 0 28 Mar 2021
A Comprehensive Review of the Video-to-Text Problem Jesus Perez-Martin B. Bustos S. Guimarães I. Sipiran Jorge A. Pérez Grethel Coello Said 71 17 0 27 Mar 2021
Describing and Localizing Multiple Changes with Transformers Yue Qiu Shintaro Yamamoto Kodai Nakashima Ryota Suzuki K. Iwata Hirokatsu Kataoka Y. Satoh 93 59 0 25 Mar 2021
Structured Co-reference Graph Attention for Video-grounded Dialogue Junyeong Kim Sunjae Yoon Dahyun Kim Chang D. Yoo 68 26 0 24 Mar 2021
QuestEval: Summarization Asks for Fact-based Evaluation Thomas Scialom Paul-Alexis Dray Patrick Gallinari Sylvain Lamprier Benjamin Piwowarski Jacopo Staiano Alex Jinpeng Wang HILM 80 277 0 23 Mar 2021
Human-like Controllable Image Captioning with Verb-specific Semantic Roles Long Chen Zhihong Jiang Jun Xiao Wei Liu 97 77 0 22 Mar 2021
BERT: A Review of Applications in Natural Language Processing and Understanding M. V. Koroteev VLM 134 225 0 22 Mar 2021
BlonDe: An Automatic Evaluation Metric for Document-level Machine Translation Yu Jiang Tianyu Liu Shuming Ma Dongdong Zhang Jian Yang Haoyang Huang Rico Sennrich Ryan Cotterell Mrinmaya Sachan M. Zhou 83 60 0 22 Mar 2021
#PraCegoVer: A Large Dataset for Image Captioning in Portuguese G. O. D. Santos Esther Luna Colombini Sandra Avila 116 11 0 21 Mar 2021
3M: Multi-style image caption generation using Multi-modality features under Multi-UPDOWN model Chengxi Li Brent Harrison 127 6 0 20 Mar 2021
Local Interpretations for Explainable Natural Language Processing: A Survey Siwen Luo Hamish Ivison S. Han Josiah Poon MILM 120 51 0 20 Mar 2021
Play the Shannon Game With Language Models: A Human-Free Approach to Summary Evaluation Nicholas Egan Oleg V. Vasilyev John Bohannon HILM 44 20 0 19 Mar 2021
Quinductor: a multilingual data-driven method for generating reading-comprehension questions using Universal Dependencies Dmytro Kalpakchi Johan Boye 53 7 0 18 Mar 2021
On Semantic Similarity in Video Retrieval Michael Wray Hazel Doughty Dima Damen 99 69 0 18 Mar 2021
Constrained Text Generation with Global Guidance -- Case Study on CommonGen Yixian Liu Liwen Zhang Wenjuan Han Yue Zhang Kewei Tu 87 10 0 12 Mar 2021
Iterative Shrinking for Referring Expression Grounding Using Deep Reinforcement Learning Mingjie Sun Jimin Xiao Eng Gee Lim ObjD 84 35 0 09 Mar 2021
Multiple Instance Captioning: Learning Representations from Histopathology Textbooks and Articles Jevgenij Gamper Nasir M. Rajpoot 72 65 0 08 Mar 2021
Relationship-based Neural Baby Talk Fan Fu Tingting Xie Ioannis Patras Sepehr Jalali 32 0 0 08 Mar 2021
Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision Andrew Shin Masato Ishii T. Narihira 140 39 0 06 Mar 2021
Causal Attention for Vision-Language Tasks Xu Yang Hanwang Zhang Guojun Qi Jianfei Cai CML 101 158 0 05 Mar 2021
CrossMap Transformer: A Crossmodal Masked Path Transformer Using Double Back-Translation for Vision-and-Language Navigation A. Magassouba K. Sugiura Hisashi Kawai 73 10 0 01 Mar 2021
Learning Reasoning Paths over Semantic Graphs for Video-grounded Dialogues Hung Le Nancy F. Chen Guosheng Lin 61 14 0 01 Mar 2021
Unbiased Sentence Encoder For Large-Scale Multi-lingual Search Engines Mahdi Hajiaghayi Monir Hajiaghayi Mark R. Bolin 39 0 0 01 Mar 2021
Enhanced Modality Transition for Image Captioning Ziwei Wang Yadan Luo Zi Huang 28 0 0 23 Feb 2021
Investigating Local and Global Information for Automated Audio Captioning with Transfer Learning Xuenan Xu Heinrich Dinkel Mengyue Wu Zeyu Xie Kai Yu 77 60 0 23 Feb 2021
VisualGPT: Data-efficient Adaptation of Pretrained Language Models for Image Captioning Jun Chen Han Guo Kai Yi Boyang Albert Li Mohamed Elhoseiny VLM 164 227 0 20 Feb 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 565 1,143 0 17 Feb 2021
Improved Bengali Image Captioning via deep convolutional neural network based encoder-decoder model Mohammad Faiyaz Khan S. M. S. Shifath Md. Saiful Islam VLM 65 21 0 14 Feb 2021
Generating Diversified Comments via Reader-Aware Topic Modeling and Saliency Detection Wei Wang Piji Li Haitao Zheng 56 14 0 13 Feb 2021
The MSR-Video to Text Dataset with Clean Annotations Haoran Chen Jianmin Li Simone Frintrop Xiaolin Hu 85 18 0 12 Feb 2021
The Role of the Input in Natural Language Video Description S. Cascianelli G. Costante Alessandro Devo Thomas Alessandro Ciarfuglia P. Valigi M. L. Fravolini 56 5 0 09 Feb 2021
Iconographic Image Captioning for Artworks E. Cetinic 66 24 0 07 Feb 2021
Commonsense Knowledge Aware Concept Selection For Diverse and Informative Visual Storytelling Hong Chen Yifei Huang Hiroya Takamura Hideki Nakayama DiffM 84 46 0 05 Feb 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Joey Tianyi Zhou MLLM 394 547 0 04 Feb 2021
L2C: Describing Visual Differences Needs Semantic Understanding of Individuals An Yan Xinze Wang Tsu-Jui Fu William Yang Wang VLM 85 12 0 03 Feb 2021
Semantic Grouping Network for Video Captioning Hobin Ryu Sunghun Kang Haeyong Kang Chang D. Yoo 119 140 0 01 Feb 2021
VX2TEXT: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs Xudong Lin Gedas Bertasius Jue Wang Shih-Fu Chang Devi Parikh Lorenzo Torresani VGen 102 67 0 28 Jan 2021
The Role of Syntactic Planning in Compositional Image Captioning Emanuele Bugliarello Desmond Elliott CoGe 68 14 0 28 Jan 2021
VisualMRC: Machine Reading Comprehension on Document Images Ryota Tanaka Kyosuke Nishida Sen Yoshida 101 146 0 27 Jan 2021