v1v2v3 (latest)

CLIPScore: A Reference-free Evaluation Metric for Image Captioning

18 April 2021

Yejin Choi

Papers citing "CLIPScore: A Reference-free Evaluation Metric for Image Captioning"

50 / 156 papers shown

Title
Fine-grained and Explainable Factuality Evaluation for Multimodal Summarization Liqiang Jing Jingxuan Zuo Yue Zhang 103 8 0 31 Dec 2024
DreamFit: Garment-Centric Human Generation via a Lightweight Anything-Dressing Encoder Ente Lin Xujie Zhang Fuwei Zhao Yuxuan Luo Xin Dong Long Zeng Xiaodan Liang VLM DiffM 114 2 0 23 Dec 2024
Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization Yue Zhang Liqiang Jing Vibhav Gogate 173 4 0 19 Dec 2024
CoMT: A Novel Benchmark for Chain of Multi-modal Thought on Large Vision-Language Models Zihui Cheng Qiguang Chen Jin Zhang Hao Fei Xiaocheng Feng Wanxiang Che Min Li L. Qin VLM MLLM LRM 163 7 0 17 Dec 2024
Neptune: The Long Orbit to Benchmarking Long Video Understanding Arsha Nagrani Ruotong Wang Ramin Mehran Rachel Hornung N. B. Gundavarapu ... Boqing Gong Cordelia Schmid Mikhail Sirotenko Yukun Zhu Tobias Weyand 153 8 0 12 Dec 2024
IQA-Adapter: Exploring Knowledge Transfer from Image Quality Assessment to Diffusion-based Generative Models Khaled Abud Sergey Lavrushkin Alexey Kirillov D. Vatolin 179 0 0 02 Dec 2024
Switti: Designing Scale-Wise Transformers for Text-to-Image Synthesis Anton Voronov Denis Kuznedelev Mikhail Khoroshikh Valentin Khrulkov Dmitry Baranchuk 213 4 0 02 Dec 2024
Continuous Concepts Removal in Text-to-image Diffusion Models Tingxu Han Weisong Sun Yanrong Hu Chunrong Fang Yonglong Zhang Shiqing Ma Tao Zheng Zhenyu Chen Zhenting Wang DiffM 184 3 0 30 Nov 2024
Puzzle Similarity: A Perceptually-guided Cross-Reference Metric for Artifact Detection in 3D Scene Reconstructions Nicolai Hermann Jorge Condor Piotr Didyk 3DV 145 0 0 26 Nov 2024
SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis Hyojun Go Byeongjun Park Jiho Jang Jin-Young Kim Soonwoo Kwon Changick Kim 3DGS 183 3 0 25 Nov 2024
Human-Activity AGV Quality Assessment: A Benchmark Dataset and an Objective Evaluation Metric Zhichao Zhang Wei Sun Xinyue Li Yunhao Li Qihang Ge ... Zhongpeng Ji Fengyu Sun Shangling Jui Xiongkuo Min Guangtao Zhai EGVM 226 1 0 25 Nov 2024
TKG-DM: Training-free Chroma Key Content Generation Diffusion Model Ryugo Morita Stanislav Frolov Brian B. Moser Takahiro Shirakawa Ko Watanabe Andreas Dengel Jinjia Zhou DiffM 134 0 0 23 Nov 2024
Bag of Design Choices for Inference of High-Resolution Masked Generative Transformer Shitong Shao Zikai Zhou Tian Ye Lichen Bai Zhiqiang Xu Zeke Xie DiffM 101 0 0 16 Nov 2024
Diffusion Beats Autoregressive: An Evaluation of Compositional Generation in Text-to-Image Models Arash Marioriyad Parham Rezaei M. Baghshah M. Rohban CoGe 447 0 0 30 Oct 2024
Attention Overlap Is Responsible for The Entity Missing Problem in Text-to-image Diffusion Models! Arash Marioriyad Mohammadali Banayeeanzade Reza Abbasi M. Rohban M. Baghshah DiffM 120 3 0 28 Oct 2024
Conjuring Semantic Similarity Tian Yu Liu Stefano Soatto DiffM 154 0 0 21 Oct 2024
MiCEval: Unveiling Multimodal Chain of Thought's Quality via Image Description and Reasoning Steps Xiongtao Zhou Jie He Lanyu Chen Jingyu Li Haojing Chen Víctor Gutiérrez-Basulto Jeff Z. Pan Ningyu Zhang LRM 134 2 0 18 Oct 2024
Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment Chenhang Cui An Zhang Yiyang Zhou Zhaorun Chen Gelei Deng Huaxiu Yao Tat-Seng Chua 147 7 0 18 Oct 2024
An Online Learning Approach to Prompt-based Selection of Generative Models and LLMs Xiaoyan Hu Ho-fung Leung Farzan Farnia 244 3 0 17 Oct 2024
Shaping a Stabilized Video by Mitigating Unintended Changes for Concept-Augmented Video Editing Mingce Guo Jingxuan He Shengeng Tang Zhangye Wang Lechao Cheng VGen DiffM 108 0 0 16 Oct 2024
VideoAgent: Self-Improving Video Generation Achint Soni Sreyas Venkataraman Abhranil Chandra Sebastian Fischmeister Percy Liang Bo Dai Sherry Yang LM&Ro VGen 127 11 0 14 Oct 2024
MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models Peng Xia Siwei Han Shi Qiu Yiyang Zhou Zhaoyang Wang ... Chenhang Cui Mingyu Ding Linjie Li Lijuan Wang Huaxiu Yao 126 16 0 14 Oct 2024
Dynamic Multimodal Evaluation with Flexible Complexity by Vision-Language Bootstrapping Yue Yang Shanghang Zhang Wenqi Shao Kaipeng Zhang Yi Bin Yu Wang Ping Luo 106 5 0 11 Oct 2024
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation Jiatao Gu Yuyang Wang Yizhe Zhang Qihang Zhang Dinghuai Zhang Navdeep Jaitly Josh Susskind Shuangfei Zhai DiffM 97 17 0 10 Oct 2024
ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time Yi Ding Bolian Li Ruqi Zhang MLLM 112 14 0 09 Oct 2024
SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration Jintao Zhang Jia Wei Pengle Zhang Jun-Jie Zhu Jun Zhu Jianfei Chen VLM MQ 142 38 0 03 Oct 2024
MetaMetrics: Calibrating Metrics For Generation Tasks Using Human Preferences Genta Indra Winata David Anugraha Lucky Susanto Garry Kuwanto Derry Wijaya 122 11 0 03 Oct 2024
EC-DIT: Scaling Diffusion Transformers with Adaptive Expert-Choice Routing Haotian Sun Tao Lei Bowen Zhang Yanghao Li Haoshuo Huang Ruoming Pang Bo Dai Nan Du DiffM MoE 148 9 0 02 Oct 2024
CRScore: Grounding Automated Evaluation of Code Review Comments in Code Claims and Smells Atharva Naik Marcus Alenius Daniel Fried Carolyn Rose 78 1 0 29 Sep 2024
Explanation Bottleneck Models Shinýa Yamaguchi Kosuke Nishida LRM BDL 110 2 0 26 Sep 2024
SDFit: 3D Object Pose and Shape by Fitting a Morphable SDF to a Single Image Dimitrije Antić Sai Kumar Dwivedi Shashank Tripathi Theo Gevers Dimitrios Tzionas Dimitrios Tzionas 136 2 0 24 Sep 2024
Generating Visual Stories with Grounded and Coreferent Characters Danyang Liu Mirella Lapata Frank Keller 100 2 0 20 Sep 2024
On Synthetic Texture Datasets: Challenges, Creation, and Curation Blaine Hoak Patrick McDaniel EGVM 130 0 0 16 Sep 2024
EditBoard: Towards a Comprehensive Evaluation Benchmark for Text-Based Video Editing Models Yupeng Chen Penglin Chen Xiaoyu Zhang Yixian Huang Qian Xie DiffM 85 1 0 15 Sep 2024
No Detail Left Behind: Revisiting Self-Retrieval for Fine-Grained Image Captioning Manu Gaur Darshan Singh Makarand Tapaswi 432 1 0 04 Sep 2024
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences Zhikai Li Xuewen Liu Dongrong Fu Jianquan Li Qingyi Gu Kurt Keutzer Zhen Dong EGVM VGen DiffM 156 2 0 26 Aug 2024
Atlas Gaussians Diffusion for 3D Generation Haitao Yang Yuan Dong Hanwen Jiang Dejia Xu Georgios Pavlakos Qixing Huang 3DGS 162 3 0 23 Aug 2024
Temporal Feature Matters: A Framework for Diffusion Model Quantization Yushi Huang Ruihao Gong Xianglong Liu Jing Liu Yuhang Li Jiwen Lu Dacheng Tao DiffM MQ 94 0 0 28 Jul 2024
DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation Jiwook Kim Seonho Lee Jaeyo Shin Jiho Choi Hyunjung Shim DiffM 98 0 0 16 Jul 2024
Auto Cherry-Picker: Learning from High-quality Generative Data Driven by Language Yicheng Chen Xiangtai Li Yining Li Yanhong Zeng Jianzong Wu Xiangyu Zhao Kai Chen VLM DiffM 115 3 0 28 Jun 2024
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation Yuang Peng Yuxin Cui Haomiao Tang Zekun Qi Runpei Dong Jing Bai Chunrui Han Zheng Ge Xiangyu Zhang Shu-Tao Xia EGVM 150 38 0 24 Jun 2024
Six-CD: Benchmarking Concept Removals for Benign Text-to-image Diffusion Models Jie Ren Kangrui Chen Yingqian Cui Shenglai Zeng Hui Liu Yue Xing Jiliang Tang Lingjuan Lyu 90 2 0 21 Jun 2024
Evaluating Numerical Reasoning in Text-to-Image Models Ivana Kajić Olivia Wiles Isabela Albuquerque Matthias Bauer Su Wang Jordi Pont-Tuset Aida Nematzadeh EGVM ReLM 154 2 0 20 Jun 2024
Not All Prompts Are Made Equal: Prompt-based Pruning of Text-to-Image Diffusion Models Alireza Ganjdanesh Reza Shirkavand Shangqian Gao Heng Huang DiffM VLM 139 5 0 17 Jun 2024
ViDiT-Q: Efficient and Accurate Quantization of Diffusion Transformers for Image and Video Generation Tianchen Zhao Tongcheng Fang Haofeng Huang Enshu Liu Widyadewi Soedarmadji ... Shengen Yan Huazhong Yang Xuefei Ning Xuefei Ning Yu Wang MQ VGen 185 34 0 04 Jun 2024
Information Theoretic Text-to-Image Alignment Chao Wang Giulio Franzese A. Finamore Massimo Gallo Pietro Michiardi 122 0 0 31 May 2024
MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification Laura Fieback Jakob Spiegelberg Hanno Gottschalk MLLM 189 5 0 29 May 2024
Ensembling Diffusion Models via Adaptive Feature Aggregation Cong Wang Kuan Tian Yonghang Guan Jun Zhang Zhiwei Jiang Fei Shen Xiao Han 116 5 0 27 May 2024
Unlearning Concepts in Diffusion Model via Concept Domain Correction and Concept Preserving Gradient Yongliang Wu Shiji Zhou Mingzhuo Yang Lianzhe Wang Wenbo Zhu Heng Chang Xiao Zhou Xu Yang Xu Yang 128 21 0 24 May 2024
Images that Sound: Composing Images and Sounds on a Single Canvas Ziyang Chen Daniel Geng Andrew Owens DiffM 128 9 0 20 May 2024