GenAI Arena: An Open Evaluation Platform for Generative Models

GenAI Arena: An Open Evaluation Platform for Generative Models

6 June 2024

Wenhu Chen

Papers citing "GenAI Arena: An Open Evaluation Platform for Generative Models"

19 / 19 papers shown

Title
Chatbot Arena Meets Nuggets: Towards Explanations and Diagnostics in the Evaluation of LLM Responses Sahel Sharifymoghaddam Shivani Upadhyay Nandan Thakur Ronak Pradeep Jimmy Lin RALM 77 0 0 28 Apr 2025
Gaussian Mixture Flow Matching Models Hansheng Chen Kai Zhang Hao Tan Zexiang Xu Fujun Luan Leonidas Guibas Gordon Wetzstein Sai Bi DiffM 82 0 0 07 Apr 2025
Inference-Time Scaling for Flow Models via Stochastic Generation and Rollover Budget Forcing Jaihoon Kim Taehoon Yoon Jisung Hwang Minhyuk Sung DiffM 77 2 0 25 Mar 2025
MJ-VIDEO: Fine-Grained Benchmarking and Rewarding Video Preferences in Video Generation Haibo Tong Zhaoyang Wang Zhe Chen Haonian Ji Shi Qiu ... Peng Xia Mingyu Ding Rafael Rafailov Chelsea Finn Huaxiu Yao EGVM VGen 134 3 0 03 Feb 2025
Improving Video Generation with Human Feedback Jie Liu Gongye Liu Jiajun Liang Ziyang Yuan Xiaokun Liu ... Pengfei Wan Di Zhang Kun Gai Yujiu Yang Wanli Ouyang VGen EGVM 75 17 0 23 Jan 2025
K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences Zhikai Li Xuewen Liu Dongrong Fu Jianquan Li Qingyi Gu Kurt Keutzer Zhen Dong EGVM VGen DiffM 106 2 0 26 Aug 2024
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer Zhuoyi Yang Jiayan Teng Wendi Zheng Ming Ding Shiyu Huang ... Weihan Wang Yean Cheng Xiaotao Gu Yuxiao Dong Jie Tang DiffM VGen 111 453 0 12 Aug 2024
MANTIS: Interleaved Multi-Image Instruction Tuning Dongfu Jiang Xuan He Huaye Zeng Cong Wei Max Ku Qian Liu Wenhu Chen VLM MLLM 40 111 0 02 May 2024
Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference Wei-Lin Chiang Lianmin Zheng Ying Sheng Anastasios Nikolas Angelopoulos Tianle Li ... Hao Zhang Banghua Zhu Michael I. Jordan Joseph E. Gonzalez Ion Stoica OSLM 77 536 0 07 Mar 2024
Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations Hakan Inan Kartikeya Upasani Jianfeng Chi Rashi Rungta Krithika Iyer ... Michael Tontchev Qing Hu Brian Fuller Davide Testuggine Madian Khabsa AI4MH 51 407 0 07 Dec 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 180 4,085 0 09 Jun 2023
Toward Verifiable and Reproducible Human Evaluation for Text-to-Image Generation Mayu Otani Riku Togashi Yu Sawai Ryosuke Ishigami Yuta Nakashima Esa Rahtu J. Heikkilä Shiníchi Satoh 57 64 0 04 Apr 2023
Adding Conditional Control to Text-to-Image Diffusion Models Lvmin Zhang Anyi Rao Maneesh Agrawala AI4CE 46 4,015 1 10 Feb 2023
Hierarchical Text-Conditional Image Generation with CLIP Latents Aditya A. Ramesh Prafulla Dhariwal Alex Nichol Casey Chu Mark Chen VLM DiffM 254 6,768 0 13 Apr 2022
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models Alex Nichol Prafulla Dhariwal Aditya A. Ramesh Pranav Shyam Pamela Mishkin Bob McGrew Ilya Sutskever Mark Chen 191 3,531 0 20 Dec 2021
SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations Chenlin Meng Yutong He Yang Song Jiaming Song Jiajun Wu Jun-Yan Zhu Stefano Ermon DiffM 85 1,446 0 02 Aug 2021
CLIPScore: A Reference-free Evaluation Metric for Image Captioning Jack Hessel Ari Holtzman Maxwell Forbes Ronan Le Bras Yejin Choi CLIP 65 1,512 0 18 Apr 2021
The Unreasonable Effectiveness of Deep Features as a Perceptual Metric Richard Y. Zhang Phillip Isola Alexei A. Efros Eli Shechtman Oliver Wang EGVM 191 11,610 0 11 Jan 2018
Improved Techniques for Training GANs Tim Salimans Ian Goodfellow Wojciech Zaremba Vicki Cheung Alec Radford Xi Chen GAN 323 8,999 0 10 Jun 2016