BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

19 May 2025

Papers citing "BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation"

47 / 47 papers shown

Title
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 229 528 0 20 Feb 2025
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song ... Shiyu Wang S. Yu Shunfeng Zhou Shuting Pan S.S. Li ReLM VLM OffRL AI4TS LRM 333 1,641 0 22 Jan 2025
InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling Yi Wang Xinhao Li Ziang Yan Yinan He Jiashuo Yu ... Kai Chen Wenhai Wang Yu Qiao Yali Wang Limin Wang 131 42 0 21 Jan 2025
GenVidBench: A Challenging Benchmark for Detecting AI-Generated Video Zhenliang Ni Qiangyu Yan Mouxiao Huang Tianning Yuan Yehui Tang Hailin Hu Xinghao Chen Yunhe Wang EGVM 53 4 0 20 Jan 2025
Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos Haobo Yuan Xianrui Li Tao Zhang Zilong Huang Shilin Xu S. Ji Yunhai Tong Lu Qi Jiashi Feng Ming-Hsuan Yang VLM 132 19 0 07 Jan 2025
LTX-Video: Realtime Video Latent Diffusion Yoav HaCohen Nisan Chiprut Benny Brazowski Daniel Shalem Dudu Moshe ... Sapir Weissbuch Victor Kulikov Yaki Bitterman Zeev Melumian Ofir Bibi VGen 118 61 0 03 Jan 2025
A Large-scale Interpretable Multi-modality Benchmark for Facial Image Forgery Localization Jingchun Lian Lingyu Liu Yaxiong Wang Yujiao Wu Li Zhu Zhedong Zheng 26 4 0 27 Dec 2024
Towards a Universal Synthetic Video Detector: From Face or Background Manipulations to Fully AI-Generated Content Rohit Kundu Hao Xiong Vishal Mohanty Athula Balachandran Amit K. Roy-Chowdhury ViT 91 3 0 16 Dec 2024
ForgerySleuth: Empowering Multimodal Large Language Models for Image Manipulation Detection Zhihao Sun Haoran Jiang Haoran Chen Yixin Cao Xipeng Qiu Zuxuan Wu Yu-Gang Jiang 103 2 0 29 Nov 2024
WorldSimBench: Towards Video Generation Models as World Simulators Yiran Qin Zhelun Shi Jiwen Yu Xijun Wang Enshen Zhou ... Lu Sheng Jing Shao Junlin Wu Wanli Ouyang Ruimao Zhang EGVM VGen 181 443 0 23 Oct 2024
ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization Jiawei Li Fanrui Zhang Jiaying Zhu Esther Sun Qiang Zhang Zheng-jun Zha MLLM 97 12 0 14 Oct 2024
FakeShield: Explainable Image Forgery Detection and Localization via Multi-modal Large Language Models Zhipei Xu Xuanyu Zhang Runyi Li Zecheng Tang Qing Huang Jian Zhang AAML 70 19 0 03 Oct 2024
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer Zhuoyi Yang Jiayan Teng Wendi Zheng Ming Ding Shiyu Huang ... Weihan Wang Yean Cheng Xiaotao Gu Yuxiao Dong Jie Tang DiffM VGen 199 507 0 12 Aug 2024
OpenVid-1M: A Large-Scale High-Quality Dataset for Text-to-video Generation Kepan Nan Rui Xie Penghao Zhou Tiehan Fan Zhenheng Yang Zhijie Chen Xiang Li Jian Yang Ying Tai 130 84 0 02 Jul 2024
PUDD: Towards Robust Multi-modal Prototype-based Deepfake Detection Alvaro Lopez Pellcier Yi Li Plamen Angelov DiffM 61 11 0 22 Jun 2024
A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models Xincheng Shuai Henghui Ding Xingjun Ma Rongcheng Tu Yu-Gang Jiang Dacheng Tao 44 20 0 20 Jun 2024
DeMamba: AI-Generated Video Detection on Million-Scale GenVideo Benchmark Haoxing Chen Yan Hong Zizheng Huang Zhuoer Xu Zhangxuan Gu ... Jun Lan Huijia Zhu Jianfu Zhang Weiqiang Wang Huaxiong Li Mamba 124 18 0 30 May 2024
EasyAnimate: A High-Performance Long Video Generation Method based on Transformer Architecture Jiaqi Xu Xinyi Zou Kunzhe Huang Yunkuo Chen Bo Liu Mengli Cheng Xing Shi Jun Huang VGen 67 46 0 29 May 2024
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Jun-Mei Song ... Haowei Zhang Mingchuan Zhang Yiming Li Yu-Huan Wu Daya Guo ReLM LRM 113 1,099 0 05 Feb 2024
Detecting Deepfakes Without Seeing Any Tal Reiss Bar Cavia Yedid Hoshen AAML 47 18 0 02 Nov 2023
AntifakePrompt: Prompt-Tuned Vision-Language Models are Fake Image Detectors You-Ming Chang Chen Yeh Wei-Chen Chiu Ning Yu VPVLM VLM 100 29 0 26 Oct 2023
WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct Haipeng Luo Qingfeng Sun Can Xu Pu Zhao Jian-Guang Lou ... Xiubo Geng Qingwei Lin Shifeng Chen Yansong Tang Dongmei Zhang LRM OSLM 189 453 0 18 Aug 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 477 4,725 0 17 Apr 2023
GPT-4 Technical Report OpenAI OpenAI OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad ... Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk Barret Zoph LLMAG MLLM 1.3K 14,289 0 15 Mar 2023
Towards Universal Fake Image Detectors that Generalize Across Generative Models Utkarsh Ojha Yuheng Li Yong Jae Lee 49 230 0 20 Feb 2023
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models Junnan Li Dongxu Li Silvio Savarese Steven C. H. Hoi VLM MLLM 414 4,539 0 30 Jan 2023
GLFF: Global and Local Feature Fusion for AI-synthesized Image Detection Yan Ju Shan Jia Jia Cai Haiying Guan Siwei Lyu CVBM 78 27 0 16 Nov 2022
Diffusion Models in Vision: A Survey Florinel-Alin Croitoru Vlad Hondru Radu Tudor Ionescu M. Shah DiffM VLM MedIm 245 1,217 0 10 Sep 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 356 3,532 0 29 Apr 2022
VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training Zhan Tong Yibing Song Jue Wang Limin Wang ViT 205 1,185 0 23 Mar 2022
Protecting Celebrities from DeepFake with Identity Consistency Transformer Xiaoyi Dong Jianmin Bao Dongdong Chen Ting Zhang Weiming Zhang Nenghai Yu Dong Chen Fang Wen B. Guo ViT 71 122 0 02 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 508 4,340 0 28 Jan 2022
Exploring Temporal Coherence for More General Video Face Forgery Detection Yinglin Zheng Jianmin Bao Dong Chen Ming Zeng Fang Wen CVBM ViT 48 215 0 15 Aug 2021
FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset Hasam Khalid Shahroz Tariq Minha Kim Simon S. Woo 84 192 0 11 Aug 2021
LoRA: Low-Rank Adaptation of Large Language Models J. E. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang Weizhu Chen OffRL AI4TS AI4CE ALM AIMat 388 10,301 0 17 Jun 2021
ViViT: A Video Vision Transformer Anurag Arnab Mostafa Dehghani G. Heigold Chen Sun Mario Lucic Cordelia Schmid ViT 211 2,147 0 29 Mar 2021
KoDF: A Large-scale Korean DeepFake Detection Dataset Patrick Kwon J. You Gyuhyeon Nam Sungwoo Park Gyeongsu Chae 61 103 0 18 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 866 29,341 0 26 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 435 3,839 0 11 Feb 2021
WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection Bojia Zi Minghao Chang Jingjing Chen Xingjun Ma Yu-Gang Jiang CVBM 127 386 0 05 Jan 2021
ID-Reveal: Identity-aware DeepFake Video Detection D. Cozzolino Andreas Rossler Justus Thies Matthias Nießner L. Verdoliva AAML 72 166 0 04 Dec 2020
CNN-generated images are surprisingly easy to spot... for now Sheng-Yu Wang Oliver Wang Richard Y. Zhang Andrew Owens Alexei A. Efros OOD 137 978 0 23 Dec 2019
EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks Mingxing Tan Quoc V. Le 3DV MedIm 133 18,106 0 28 May 2019
FaceForensics++: Learning to Detect Manipulated Facial Images Andreas Rossler D. Cozzolino L. Verdoliva Christian Riess Justus Thies Matthias Nießner CVBM 101 2,075 0 25 Jan 2019
MesoNet: a Compact Facial Video Forgery Detection Network Darius Afchar Vincent Nozick Junichi Yamagishi Isao Echizen CVBM PICV 72 1,247 0 04 Sep 2018
Can Spatiotemporal 3D CNNs Retrace the History of 2D CNNs and ImageNet? Kensho Hara Hirokatsu Kataoka Y. Satoh 3DPC 121 1,934 0 27 Nov 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 468 19,006 0 20 Jul 2017