v1v2 (latest)

CIDEr: Consensus-based Image Description Evaluation

20 November 2014

Ramakrishna Vedantam

C. L. Zitnick

Devi Parikh

ArXiv (abs)PDF HTML

Papers citing "CIDEr: Consensus-based Image Description Evaluation"

50 / 2,183 papers shown

Title
Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives Sara Sarto Marcella Cornia Rita Cucchiara 86 1 0 18 Mar 2025
Tracking Meets Large Multimodal Models for Driving Scenario Understanding Ayesha Ishaq Jean Lahoud Fahad Shahbaz Khan Salman Khan Hisham Cholakkal Rao Muhammad Anwer 110 2 0 18 Mar 2025
Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference Hao Yin Guangzong Si Zilei Wang 132 1 0 17 Mar 2025
Exploring 3D Activity Reasoning and Planning: From Implicit Human Intentions to Route-Aware Planning Xueying Jiang Wenhao Li Xiaoqin Zhang Ling Shao Shijian Lu LRM 147 1 0 17 Mar 2025
The Amazon Nova Family of Models: Technical Report and Model Card Amazon AGI Aaron Langford A. Shah Abhanshu Gupta Abhimanyu Bhatter ... Benjamin Biggs Benjamin Ott Bhanu Vinzamuri Bharath Venkatesh Bhavana Ganesh 26 21 0 17 Mar 2025
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions Wan Ju Kang Eunki Kim Na Min An Sangryul Kim Haemin Choi Ki Hoon Kwak James Thorne 85 0 0 17 Mar 2025
CapArena: Benchmarking and Analyzing Detailed Image Captioning in the LLM Era Kanzhi Cheng Wenpo Song Jiaxin Fan Zheng Ma Qiushi Sun Fangzhi Xu Chenyang Yan Nuo Chen Jianbing Zhang Jiajun Chen MLLM VLM 95 3 0 16 Mar 2025
From Eye to Mind: brain2text Decoding Reveals the Neural Mechanisms of Visual Semantic Processing Feihan Feng Jingxin Nie 127 0 0 15 Mar 2025
MoLEx: Mixture of Layer Experts for Finetuning with Sparse Upcycling R. Teo T. Nguyen MoE 149 2 0 14 Mar 2025
T2I-FineEval: Fine-Grained Compositional Metric for Text-to-Image Evaluation Seyed Mohammad Hadi Hosseini Amir Mohammad Izadi Ali Abdollahi Armin Saghafian M. Baghshah EGVM CoGe 88 0 0 14 Mar 2025
OmniDiff: A Comprehensive Benchmark for Fine-grained Image Difference Captioning Yang Liu Saihui Hou Saijie Hou Jiabao Du Shibei Meng Yongzhen Huang VLM 124 0 0 14 Mar 2025
Large-scale Pre-training for Grounded Video Caption Generation Evangelos Kazakos Cordelia Schmid Josef Sivic 86 0 0 13 Mar 2025
FlowTok: Flowing Seamlessly Across Text and Image Tokens Ju He Qihang Yu Qihao Liu Liang-Chieh Chen 150 1 0 13 Mar 2025
SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment Katrin Renz Long Chen Elahe Arani Oleg Sinavski MLLM 213 6 0 12 Mar 2025
Florenz: Scaling Laws for Systematic Generalization in Vision-Language Models Julian Spravil Sebastian Houben Sven Behnke VLM 197 0 0 12 Mar 2025
Mellow: a small audio language model for reasoning Soham Deshmukh Satvik Dixit Rita Singh Bhiksha Raj AuLLM ReLM LRM 113 4 0 11 Mar 2025
HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding Shehreen Azad Vibhav Vineet Yogesh S Rawat VLM 493 3 0 11 Mar 2025
SuperCap: Multi-resolution Superpixel-based Image Captioning Henry Senior Luca Rossi Gregory Slabaugh Shanxin Yuan VLM 108 0 0 11 Mar 2025
Multi-Cue Adaptive Visual Token Pruning for Large Vision-Language Models Bozhi Luan Wengang Zhou Hao Feng Zhe Wang Xiaosong Li Haoyang Li VLM 131 0 0 11 Mar 2025
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning Qinghao Ye Xianhan Zeng Fu Li Chong Li Haoqi Fan CoGe 116 5 0 10 Mar 2025
AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning Bo Jiang Shaoyu Chen Qian Zhang Wenyu Liu Xinggang Wang OffRL LRM VLM 161 12 0 10 Mar 2025
Seeing Delta Parameters as JPEG Images: Data-Free Delta Compression with Discrete Cosine Transform Chenyu Huang Peng Ye Xinyu Wang Shenghe Zheng Biqing Qi Lei Bai Wanli Ouyang Tao Chen 59 2 0 09 Mar 2025
Optimal Transport for Brain-Image Alignment: Unveiling Redundancy and Synergy in Neural Information Processing Yang Xiao Wang Lu Jie Ji Ruimeng Ye Gen Li Xiaolong Ma Bo Hui OT 97 0 0 09 Mar 2025
SplatTalk: 3D VQA with Gaussian Splatting Anh Thai Songyou Peng Kyle Genova Leonidas Guibas Thomas Funkhouser 3DGS 147 1 0 08 Mar 2025
Merge then Realign: Simple and Effective Modality-Incremental Continual Learning for Multimodal LLMs Dingkun Zhang Shuhan Qi Xinyu Xiao Kehai Chen Xuan Wang CLL MoMe 117 0 0 08 Mar 2025
Is Your Video Language Model a Reliable Judge? M. Liu Wensheng Zhang 104 5 0 07 Mar 2025
A Benchmark for Multi-Lingual Vision-Language Learning in Remote Sensing Image Captioning Qing Zhou Tao Yang Junyu Gao W. Ni Junzheng Wu Qi Wang 78 0 0 06 Mar 2025
Enhancing Vietnamese VQA through Curriculum Learning on Raw and Augmented Text Representations Khoi Anh Nguyen Linh Yen Vu Thang Dinh Duong Thuan Nguyen Duong Huy Thanh Nguyen V. Q. Dinh 91 3 0 05 Mar 2025
Advancing Multimodal In-Context Learning in Large Vision-Language Models with Task-aware Demonstrations Yanshu Li 144 2 0 05 Mar 2025
DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles Rui Zhao Weijia Mao Mike Zheng Shou 107 1 0 05 Mar 2025
DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models Saeed Ranjbar Alvar Gursimran Singh Mohammad Akbari Yong Zhang VLM 208 3 0 04 Mar 2025
HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization Zitang Zhou Ke Mei Yu Lu Tianyi Wang Fengyun Rao 134 2 0 03 Mar 2025
Group Relative Policy Optimization for Image Captioning Xu Liang 79 1 0 03 Mar 2025
Learning to Generate Long-term Future Narrations Describing Activities of Daily Living Ramanathan Rajendiran Debaditya Roy Basura Fernando VGen 124 0 0 03 Mar 2025
HalCECE: A Framework for Explainable Hallucination Detection through Conceptual Counterfactuals in Image Captioning Maria Lymperaiou Giorgos Filandrianos Angeliki Dimitriou Athanasios Voulodimos Giorgos Stamou MLLM 56 0 0 01 Mar 2025
Stealthy Backdoor Attack in Self-Supervised Learning Vision Encoders for Large Vision Language Models Zhaoyi Liu Huan Zhang AAML 203 2 0 25 Feb 2025
All-in-one: Understanding and Generation in Multimodal Reasoning with the MAIA Benchmark Davide Testa Giovanni Bonetta Raffaella Bernardi Alessandro Bondielli Alessandro Lenci Alessio Miaschi Lucia Passaro Bernardo Magnini VGen LRM 90 0 0 24 Feb 2025
Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts Zhenghao Liu Xingsheng Zhu Tianshuo Zhou Xinyi Zhang Xiaoyuan Yi Yukun Yan Yu Gu Ge Yu Maosong Sun RALM VLM 61 3 0 24 Feb 2025
Good Representation, Better Explanation: Role of Convolutional Neural Networks in Transformer-Based Remote Sensing Image Captioning Swadhin Das Saarthak Gupta and Kamal Kumar Raksha Sharma 50 1 0 22 Feb 2025
Capturing Rich Behavior Representations: A Dynamic Action Semantic-Aware Graph Transformer for Video Captioning Caihua Liu Xu Li Wenjing Xue Wei Tang Xia Feng 80 0 0 20 Feb 2025
Traffic Scene Generation from Natural Language Description for Autonomous Vehicles with Large Language Model Bo-Kai Ruan Hao-Tang Tsui Yung-Hui Li Hong-Han Shuai LM&Ro 174 10 0 20 Feb 2025
CAPability: A Comprehensive Visual Caption Benchmark for Evaluating Both Correctness and Thoroughness Zhihang Liu Chen-Wei Xie Bin Wen Feiwu Yu Jixuan Chen ... Pandeng Li Yinglu Li Zuan Gao Yun Zheng Hongtao Xie VLM CoGe 172 0 0 19 Feb 2025
Natural Language Generation from Visual Events: Challenges and Future Directions Aditya K Surikuchi Raquel Fernández Sandro Pezzelle EGVM 517 0 0 18 Feb 2025
Image Embedding Sampling Method for Diverse Captioning Sania Waheed Na Min An 91 0 0 14 Feb 2025
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation Mohammad Mahdi Abootorabi Amirhosein Zobeiri Mahdi Dehghani Mohammadali Mohammadkhani Bardia Mohammadi Omid Ghahroodi M. Baghshah Ehsaneddin Asgari RALM 351 7 0 12 Feb 2025
VLM-Assisted Continual learning for Visual Question Answering in Self-Driving Yuxin Lin Mengshi Qi Liang Liu Huadong Ma CLL 80 2 0 02 Feb 2025
Mobile Manipulation Instruction Generation from Multiple Images with Automatic Metric Enhancement Kei Katsumata Motonari Kambara Daichi Yashima Ryosuke Korekata Komei Sugiura 200 0 0 28 Jan 2025
An Ensemble Model with Attention Based Mechanism for Image Captioning Israa Al Badarneh Bassam Hammo Omar Al-Kadi 198 6 0 28 Jan 2025
Advancing General Multimodal Capability of Vision-language Models with Pyramid-descent Visual Position Encoding Ziyang Chen Mingxiao Li Zhongfu Chen Nan Du Xiaolong Li Yuexian Zou 146 1 0 19 Jan 2025
DriveLM: Driving with Graph Visual Question Answering Chonghao Sima Katrin Renz Kashyap Chitta Lawrence Yunliang Chen Hanxue Zhang Chengen Xie Jens Beißwenger Ping Luo Andreas Geiger Hongyang Li 295 207 0 17 Jan 2025