v1v2 (latest)

CIDEr: Consensus-based Image Description Evaluation

20 November 2014

Ramakrishna Vedantam

C. L. Zitnick

Devi Parikh

ArXiv (abs)PDF HTML

Papers citing "CIDEr: Consensus-based Image Description Evaluation"

50 / 2,183 papers shown

Title
3UR-LLM: An End-to-End Multimodal Large Language Model for 3D Scene Understanding Haomiao Xiong Yunzhi Zhuge Jiawen Zhu Lu Zhang Huchuan Lu 79 3 0 14 Jan 2025
Omni-RGPT: Unifying Image and Video Region-level Understanding via Token Marks Miran Heo Min-Hung Chen De-An Huang Sifei Liu Subhashree Radhakrishnan Seon Joo Kim Yu-Chun Wang Ryo Hachiuma ObjD VLM 276 3 0 14 Jan 2025
VidChain: Chain-of-Tasks with Metric-based Direct Preference Optimization for Dense Video Captioning Ji Soo Lee Jongha Kim Jeehye Na Jinyoung Park H. Kim VGen 58 2 0 12 Jan 2025
Efficient Architectures for High Resolution Vision-Language Models Miguel Carvalho Bruno Martins MLLM VLM 59 0 0 05 Jan 2025
Classifier-Guided Captioning Across Modalities Ariel Shaulov Tal Shaharabany E. Shaar Gal Chechik Lior Wolf 91 0 0 03 Jan 2025
Unleashing Text-to-Image Diffusion Prior for Zero-Shot Image Captioning Jianjie Luo Jingwen Chen Yehao Li Yingwei Pan Jianlin Feng Hongyang Chao Ting Yao DiffM VLM 139 0 0 03 Jan 2025
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin Haoyang Li Li Yuan Shuicheng Yan Jie Chen 140 2 0 31 Dec 2024
A Comprehensive Survey of Large Language Models and Multimodal Large Language Models in Medicine Hanguang Xiao Feizhong Zhou Xianglong Liu Tianqi Liu Zhipeng Li Xin Liu Xiaoxuan Huang AILaw LM&MA LRM 145 30 0 31 Dec 2024
Multi-Agent Planning Using Visual Language Models Michele Brienza F. Argenziano Vincenzo Suriani D. Bloisi Daniele Nardi LM&Ro LLMAG 136 5 0 31 Dec 2024
VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM Yuqian Yuan Hang Zhang Wentong Li Zesen Cheng Boqiang Zhang ... Deli Zhao Wenqiao Zhang Yueting Zhuang Jianke Zhu Lidong Bing 164 10 0 31 Dec 2024
From Hallucinations to Facts: Enhancing Language Models with Curated Knowledge Graphs Ratnesh Kumar Joshi Sagnik Sengupta Asif Ekbal HILM KELM 79 0 0 24 Dec 2024
SCBench: A Sports Commentary Benchmark for Video LLMs Kuangzhi Ge Lawrence Yunliang Chen Kevin Zhang Yulin Luo Tianyu Shi Liaoyuan Fan Xiang Li Guanqun Wang Shanghang Zhang 79 1 0 23 Dec 2024
Where am I? Cross-View Geo-localization with Natural Language Descriptions Junyan Ye Honglin Lin Leyan Ou Dairong Chen Zihao Wang Zeang Sheng Weijia Li Weijia Li 231 0 0 22 Dec 2024
A High-Quality Text-Rich Image Instruction Tuning Dataset via Hybrid Instruction Generation Shijie Zhou Ruiyi Zhang Yufan Zhou Changyou Chen VLM 117 1 0 20 Dec 2024
G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o Tony Cheng Tong Sirui He Z. Shao Dit-Yan Yeung 106 3 0 18 Dec 2024
Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning Yunbin Tu Liang-Sheng Li Li Su Qingming Huang 114 0 0 18 Dec 2024
Exploring Temporal Event Cues for Dense Video Captioning in Cyclic Co-learning Zhuyang Xie Yan Yang Yankai Yu Jie Wang Yongquan Jiang Xiao-Jun Wu 104 0 0 16 Dec 2024
Automated Image Captioning with CNNs and Transformers Joshua Adrian Cahyono Jeremy Nathan Jusuf VLM ViT 92 0 0 13 Dec 2024
NowYouSee Me: Context-Aware Automatic Audio Description Seon-Ho Lee Jue Wang D. Fan Zhikang Zhang Linda Liu Xiang Hao Vimal Bhat Xinyu Li 139 1 0 13 Dec 2024
Neptune: The Long Orbit to Benchmarking Long Video Understanding Arsha Nagrani Ruotong Wang Ramin Mehran Rachel Hornung N. B. Gundavarapu ... Boqing Gong Cordelia Schmid Mikhail Sirotenko Yukun Zhu Tobias Weyand 179 8 0 12 Dec 2024
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition Zhisheng Zhong Chengyao Wang Yuqi Liu Senqiao Yang Longxiang Tang ... Shaozuo Yu Sitong Wu Eric Lo Shu Liu Jiaya Jia AuLLM 162 7 0 12 Dec 2024
TimeRefine: Temporal Grounding with Time Refining Video LLM Xizi Wang Feng Cheng Ziyang Wang Huiyu Wang Md. Mohaiminul Islam Lorenzo Torresani Joey Tianyi Zhou Gedas Bertasius David J. Crandall 208 2 0 12 Dec 2024
CoMA: Compositional Human Motion Generation with Multi-modal Agents Shanlin Sun Gabriel De Araujo Jiaqi Xu S. Kevin Zhou Hanwen Zhang Ziheng Huang Chenyu You Xiaohui Xie 161 5 0 10 Dec 2024
Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor Jiali Chen Xusen Hei Yuqi Xue Yuancheng Wei Jiayuan Xie Yi Cai Qing Li MLLM LRM 142 7 0 08 Dec 2024
Who Brings the Frisbee: Probing Hidden Hallucination Factors in Large Vision-Language Model via Causality Analysis Po-Hsuan Huang Jeng-Lin Li Chin-Po Chen Ming-Ching Chang Wei-Chao Chen LRM 139 1 0 04 Dec 2024
Video LLMs for Temporal Reasoning in Long Videos Fawad Javed Fateh Umer Ahmed Hamza Khan M. Zia Quoc-Huy Tran VLM 186 1 0 04 Dec 2024
DIR: Retrieval-Augmented Image Captioning with Comprehensive Understanding Hao Wu Zhihang Zhong Xiao Sun DiffM 106 0 0 02 Dec 2024
LSceneLLM: Enhancing Large 3D Scene Understanding Using Adaptive Visual Preferences Hongyan Zhi Peihao Chen Junyan Li Shuailei Ma Xinyu Sun Tianhang Xiang Yinjie Lei Mingkui Tan Chuang Gan 174 8 0 02 Dec 2024
OmniFlow: Any-to-Any Generation with Multi-Modal Rectified Flows Shufan Li Konstantinos Kallidromitis Akash Gokul Zichun Liao Yusuke Kato Kazuki Kozuka Aditya Grover VGen 177 9 0 02 Dec 2024
DOGE: Towards Versatile Visual Document Grounding and Referring Yinan Zhou Yuxin Chen Haokun Lin Shuyu Yang Li Zhu Zhongang Qi Chen Ma Ying Shan ObjD 157 4 0 26 Nov 2024
Diagram-Driven Course Questions Generation Xinyu Zhang L. Zhang Yanrui Wu Muye Huang Wenjun Wu Bo Li Shaowei Wang Jun Liu Jun Liu 115 0 0 26 Nov 2024
TechCoach: Towards Technical-Point-Aware Descriptive Action Coaching Yuan-Ming Li An-Lan Wang Kun-Yu Lin Yu-Ming Tang Ling-an Zeng Jian-Fang Hu Wei-Shi Zheng 181 6 0 26 Nov 2024
VideoOrion: Tokenizing Object Dynamics in Videos Yicheng Feng Yijiang Li Wanpeng Zhang Sipeng Zheng Zongqing Lu Sipeng Zheng Zongqing Lu 171 2 0 25 Nov 2024
IterIS: Iterative Inference-Solving Alignment for LoRA Merging Hongxu Chen Runshi Li Bowei Zhu Zhen Wang Long Chen MoMe 183 2 0 21 Nov 2024
LaVida Drive: Vision-Text Interaction VLM for Autonomous Driving with Token Selection, Recovery and Enhancement Siwen Jiao Yangyi Fang Baoyun Peng Wangqun Chen Bharadwaj Veeravalli 223 5 0 20 Nov 2024
The Power of Many: Multi-Agent Multimodal Models for Cultural Image Captioning Longju Bai Angana Borah Oana Ignat Rada Mihalcea VLM 139 3 0 18 Nov 2024
SymDPO: Boosting In-Context Learning of Large Multimodal Models with Symbol Demonstration Direct Preference Optimization Hongrui Jia Chaoya Jiang Haiyang Xu Wei Ye Mengfan Dong Ming Yan Ji Zhang Fei Huang Shikun Zhang MLLM 149 3 0 17 Nov 2024
Unstructured Text Enhanced Open-domain Dialogue System: A Systematic Survey Longxuan Ma Mingda Li Weinan Zhang Jiapeng Li Ting Liu 124 17 0 14 Nov 2024
Which Viewpoint Shows it Best? Language for Weakly Supervising View Selection in Multi-view Instructional Videos Sagnik Majumder Tushar Nagarajan Ziad Al-Halah Reina Pradhan Kristen Grauman 80 0 0 13 Nov 2024
Grounded Video Caption Generation Evangelos Kazakos Cordelia Schmid Josef Sivic 73 0 0 12 Nov 2024
Multi-Modal interpretable automatic video captioning Antoine Hanna-Asaad Decky Aspandi Titus Zaharia 65 0 0 11 Nov 2024
EVQAScore: A Fine-grained Metric for Video Question Answering Data Quality Evaluation Hao Liang Zirong Chen Wentao Zhang Wentao Zhang 108 1 0 11 Nov 2024
ViTOC: Vision Transformer and Object-aware Captioner Feiyang Huang 100 0 0 09 Nov 2024
No Culture Left Behind: ArtELingo-28, a Benchmark of WikiArt with Captions in 28 Languages Youssef Mohamed Runjia Li Ibrahim Said Ahmad Kilichbek Haydarov Philip Torr Kenneth Church Mohamed Elhoseiny VLM 94 11 0 06 Nov 2024
From Pixels to Prose: Advancing Multi-Modal Language Models for Remote Sensing Xingwu Sun Benji Peng Charles Zhang Fei Jin Qian Niu ... Ming Li Pohsun Feng Ziqian Bi Ming Liu Yize Zhang 84 1 0 05 Nov 2024
DDFAV: Remote Sensing Large Vision Language Models Dataset and Evaluation Benchmark Haodong Li Haicheng Qu Xiaofeng Zhang 76 1 0 05 Nov 2024
Semantic-Aligned Adversarial Evolution Triangle for High-Transferability Vision-Language Attack Xiaojun Jia Sensen Gao Qing Guo Ke Ma Yihao Huang Simeng Qin Yang Liu Ivor Tsang Fellow Xiaochun Cao AAML 87 3 0 04 Nov 2024
SPECTRUM: Semantic Processing and Emotion-informed video-Captioning Through Retrieval and Understanding Modalities Ehsan Faghihi Mohammedreza Zarenejad Ali-Asghar Beheshti Shirazi 72 1 0 04 Nov 2024
TypeScore: A Text Fidelity Metric for Text-to-Image Generative Models Georgia Gabriela Sampaio Ruixiang Zhang Shuangfei Zhai Jiatao Gu J. Susskind Navdeep Jaitly Yizhe Zhang DiffM CLIP 65 1 0 02 Nov 2024
Designing a Robust Radiology Report Generation System Sonit Singh MedIm 87 1 0 02 Nov 2024