v1v2 (latest)

CIDEr: Consensus-based Image Description Evaluation

20 November 2014

Ramakrishna Vedantam

C. L. Zitnick

Devi Parikh

ArXiv (abs)PDF HTML

Papers citing "CIDEr: Consensus-based Image Description Evaluation"

50 / 2,184 papers shown

Title
Language Is Not All You Need: Aligning Perception with Language Models Shaohan Huang Li Dong Wenhui Wang Y. Hao Saksham Singhal ... Johan Bjorck Vishrav Chaudhary Subhojit Som Xia Song Furu Wei VLM LRM MLLM 144 567 0 27 Feb 2023
Improving Medical Speech-to-Text Accuracy with Vision-Language Pre-training Model Jaeyoung Huh Sangjoon Park Jeonghyeon Lee Jong Chul Ye LM&MA 50 12 0 27 Feb 2023
Learning Visual Representations via Language-Guided Sampling Mohamed El Banani Karan Desai Justin Johnson SSL VLM 124 28 0 23 Feb 2023
HL Dataset: Visually-grounded Description of Scenes, Actions and Rationales Michele Cafagna Kees van Deemter Albert Gatt 3DV 72 4 0 23 Feb 2023
Test-Time Distribution Normalization for Contrastively Learned Vision-language Models Yi Zhou Juntao Ren Fengyu Li Ramin Zabih Ser-Nam Lim VLM 101 15 0 22 Feb 2023
STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training Weihong Zhong Mao Zheng Duyu Tang Xuan Luo Heng Gong Xiaocheng Feng Bing Qin 112 8 0 20 Feb 2023
Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts Zhihong Chen Shizhe Diao Benyou Wang Guanbin Li Xiang Wan MedIm 127 33 0 17 Feb 2023
Retrieval-augmented Image Captioning R. Ramos Desmond Elliott Bruno Martins VLM 80 29 0 16 Feb 2023
Tuning computer vision models with task rewards André Susano Pinto Alexander Kolesnikov Yuge Shi Lucas Beyer Xiaohua Zhai VLM 85 41 0 16 Feb 2023
Towards Local Visual Modeling for Image Captioning Yiwei Ma Jiayi Ji Xiaoshuai Sun Yiyi Zhou Rongrong Ji ViT 100 79 0 13 Feb 2023
See Your Heart: Psychological states Interpretation through Visual Creations Likun Yang Xiaokun Feng Xiaotang Chen Shiyu Zhang Kaiqi Huang 20 0 0 11 Feb 2023
Stacked Cross-modal Feature Consolidation Attention Networks for Image Captioning Mozhgan Pourkeshavarz Shahabedin Nabavi Mohsen Moghaddam M. Shamsfard 86 4 0 08 Feb 2023
KENGIC: KEyword-driven and N-Gram Graph based Image Captioning Brandon Birmingham A. Muscat 54 1 0 07 Feb 2023
Transform, Contrast and Tell: Coherent Entity-Aware Multi-Image Captioning Jingqiang Chen 71 4 0 04 Feb 2023
DEVICE: Depth and Visual Concepts Aware Transformer for OCR-based Image Captioning Dongsheng Xu Qingbao Huang Shuang Feng Yiru Cai Feng Shuang Yi Cai ViT VLM 95 1 0 03 Feb 2023
IC3: Image Captioning by Committee Consensus David M. Chan Austin Myers Sudheendra Vijayanarasimhan David A. Ross John F. Canny 80 18 0 02 Feb 2023
ADAPT: Action-aware Driving Caption Transformer Bu Jin Xinyi Liu Yupeng Zheng Pengfei Li Hao Zhao Tong Zhang Yuhang Zheng Guyue Zhou Jingjing Liu 147 74 0 01 Feb 2023
Semi-Parametric Video-Grounded Text Generation Sungdong Kim Jin-Hwa Kim Jiyoung Lee Minjoon Seo VGen 80 14 0 27 Jan 2023
Style-Aware Contrastive Learning for Multi-Style Image Captioning Yucheng Zhou Guodong Long 68 23 0 26 Jan 2023
Multimodal Event Transformer for Image-guided Story Ending Generation Yucheng Zhou Guodong Long 86 20 0 26 Jan 2023
Semi-Supervised Image Captioning by Adversarially Propagating Labeled Data Dong-Jin Kim Tae-Hyun Oh Jinsoo Choi In So Kweon SSL VLM 45 4 0 26 Jan 2023
Towards a Unified Model for Generating Answers and Explanations in Visual Question Answering Chenxi Whitehouse Tillman Weyde Pranava Madhyastha LRM 91 3 0 25 Jan 2023
Visual Semantic Relatedness Dataset for Image Captioning Ahmed Sabir Francesc Moreno-Noguer Lluís Padró CoGe VLM 75 3 0 20 Jan 2023
Visual Writing Prompts: Character-Grounded Story Generation with Curated Image Sequences Xudong Hong A. Sayeed K. Mehra Vera Demberg Bernt Schiele VGen 75 41 0 20 Jan 2023
Embodied Agents for Efficient Exploration and Smart Scene Description Roberto Bigazzi Marcella Cornia S. Cascianelli Lorenzo Baraldi Rita Cucchiara LM&Ro 71 7 0 17 Jan 2023
TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real World Hongpeng Lin Ludan Ruan Wenke Xia Peiyu Liu Jing Wen ... Di Hu Ruihua Song Wayne Xin Zhao Qin Jin Zhiwu Lu VGen 85 12 0 14 Jan 2023
End-to-End 3D Dense Captioning with Vote2Cap-DETR Sijin Chen Erik Cambria Xin Chen Yinjie Lei Tao Chen YU Gang ViT 75 60 0 06 Jan 2023
An Image captioning algorithm based on the Hybrid Deep Learning Technique (CNN+GRU) Rana Adnan Ahmad Muhammad Azhar Hina Sattar 119 10 0 06 Jan 2023
Adaptively Clustering Neighbor Elements for Image-Text Generation Zihua Wang Xu Yang Hanwang Zhang Haiyang Xu Mingshi Yan Feisi Huang Yu Zhang VLM 176 0 0 05 Jan 2023
SPRING: Situated Conversation Agent Pretrained with Multimodal Questions from Incremental Layout Graph Yuxing Long Binyuan Hui Fulong Ye Yanyang Li Zhuoxin Han Caixia Yuan Yongbin Li Xiaojie Wang LLMAG 65 8 0 05 Jan 2023
HiTeA: Hierarchical Temporal-Aware Video-Language Pre-training Qinghao Ye Guohai Xu Ming Yan Haiyang Xu Qi Qian Ji Zhang Fei Huang VLM AI4TS 227 75 0 30 Dec 2022
Neural Shape Compiler: A Unified Framework for Transforming between Text, Point Cloud, and Program Tiange Luo Honglak Lee Justin Johnson 94 5 0 25 Dec 2022
Do DALL-E and Flamingo Understand Each Other? Hang Li Jindong Gu Rajat Koner Sahand Sharifzadeh Volker Tresp MLLM 82 12 0 23 Dec 2022
Confidence-Aware Paced-Curriculum Learning by Label Smoothing for Surgical Scene Understanding Mengya Xu Mobarakol Islam Ben Glocker Hongliang Ren 59 2 0 22 Dec 2022
METEOR Guided Divergence for Video Captioning D. Rothenpieler Shahin Amiriparian 64 3 0 20 Dec 2022
Diffusion Glancing Transformer for Parallel Sequence to Sequence Learning Lihua Qian Mingxuan Wang Yang Liu Hao Zhou DiffM 82 1 0 20 Dec 2022
Benchmarking Spatial Relationships in Text-to-Image Generation Tejas Gokhale Hamid Palangi Besmira Nushi Vibhav Vineet Eric Horvitz Ece Kamar Chitta Baral Yezhou Yang EGVM 116 72 0 20 Dec 2022
MetaCLUE: Towards Comprehensive Visual Metaphors Research Arjun Reddy Akula Brenda S. Driscoll P. Narayana Soravit Changpinyo Zhi-xuan Jia ... Sugato Basu Leonidas Guibas William T. Freeman Yuanzhen Li Varun Jampani CLIP VLM 56 26 0 19 Dec 2022
Explanation Regeneration via Information Bottleneck Qintong Li Zhiyong Wu Lingpeng Kong Wei Bi 93 4 0 19 Dec 2022
Efficient Image Captioning for Edge Devices Ning Wang Jiangrong Xie Hangzai Luo Qinglin Cheng Jihao Wu Mingbo Jia Linlin Li VLM CLIP 82 22 0 18 Dec 2022
Semantics-Empowered Communication: A Tutorial-cum-Survey Zhilin Lu Rongpeng Li Kun Lu Xianfu Chen Ekram Hossain Zhifeng Zhao Honggang Zhang 121 19 0 16 Dec 2022
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation Yixin Liu Alexander R. Fabbri Pengfei Liu Yilun Zhao Linyong Nan ... Simeng Han Shafiq Joty Chien-Sheng Wu Caiming Xiong Dragomir R. Radev ALM 86 134 0 15 Dec 2022
NLIP: Noise-robust Language-Image Pre-training Runhu Huang Yanxin Long Jianhua Han Hang Xu Xiwen Liang Chunjing Xu Xiaodan Liang VLM 111 30 0 14 Dec 2022
ScanEnts3D: Exploiting Phrase-to-3D-Object Correspondences for Improved Visio-Linguistic Models in 3D Scenes Ahmed Abdelreheem Kyle Olszewski Hsin-Ying Lee Peter Wonka Panos Achlioptas 3DPC 111 28 0 12 Dec 2022
Contextual Explainable Video Representation: Human Perception-based Understanding Khoa T. Vo Kashu Yamazaki Phong H. Nguyen Pha Nguyen Khoa Luu Ngan Le 77 9 0 12 Dec 2022
Information-Theoretic Text Hallucination Reduction for Video-grounded Dialogue Sunjae Yoon Eunseop Yoon Hee Suk Yoon Junyeong Kim Changdong Yoo 70 20 0 12 Dec 2022
REVEAL: Retrieval-Augmented Visual-Language Pre-Training with Multi-Source Multimodal Knowledge Memory Ziniu Hu Ahmet Iscen Chen Sun Zirui Wang Kai-Wei Chang Yizhou Sun Cordelia Schmid David A. Ross Alireza Fathi RALM VLM 105 96 0 10 Dec 2022
VideoCoCa: Video-Text Modeling with Zero-Shot Transfer from Contrastive Captioners Shen Yan Tao Zhu Zirui Wang Yuan Cao Mi Zhang Soham Ghosh Yonghui Wu Jiahui Yu VLM VGen 78 51 0 09 Dec 2022
Open-world Story Generation with Structured Knowledge Enhancement: A Comprehensive Survey Yuxin Wang Jieru Lin Zhiwei Yu Wei Hu Börje F. Karlsson 138 20 0 09 Dec 2022
OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models Jinze Bai Rui Men Han Yang Xuancheng Ren Kai Dang ... Wenhang Ge Jianxin Ma Junyang Lin Jingren Zhou Chang Zhou 88 16 0 08 Dec 2022