Unhackable Temporal Rewarding for Scalable Video MLLMs

17 February 2025

Papers citing "Unhackable Temporal Rewarding for Scalable Video MLLMs"

24 / 24 papers shown

Title
Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought Chao Huang Benfeng Wang Jie Wen Chengliang Liu Wei Wang Li Shen Xiaochun Cao LRM 54 0 0 26 May 2025
Perception-R1: Pioneering Perception Policy with Reinforcement Learning En Yu Kangheng Lin Liang Zhao Jisheng Yin Yana Wei ... Zheng Ge Xiangyu Zhang Daxin Jiang Jingyu Wang Wenbing Tao VLM OffRL LRM 68 10 0 10 Apr 2025
Perception in Reflection Yana Wei Liang Zhao Kangheng Lin En Yu Yuang Peng ... Jianjian Sun Haoran Wei Zheng Ge Xiangyu Zhang Vishal M. Patel 91 0 0 09 Apr 2025
Video-R1: Reinforcing Video Reasoning in MLLMs Kaituo Feng Kaixiong Gong Yangqiu Song Zonghao Guo Yibing Wang Tianshuo Peng Jian Wu Xiaoying Zhang Benyou Wang Xiangyu Yue AI4TS SyDa LRM 94 31 0 27 Mar 2025
PerPO: Perceptual Preference Optimization via Discriminative Rewarding Zining Zhu Liang Zhao Kangheng Lin Jinze Yang En Yu Chenglong Liu Haoran Wei Jianjian Sun Zheng Ge Xiangyu Zhang 52 4 0 05 Feb 2025
Tarsier: Recipes for Training and Evaluating Large Video Description Models Jiawei Wang Liping Yuan Yuchen Zhang 70 57 0 30 Jun 2024
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation Yuang Peng Yuxin Cui Haomiao Tang Zekun Qi Runpei Dong Jing Bai Chunrui Han Zheng Ge Xiangyu Zhang Shu-Tao Xia EGVM 121 34 0 24 Jun 2024
LaMOT: Language-Guided Multi-Object Tracking Yunhao Li Xiaoqiong Liu Luke Liu Heng Fan Libo Zhang VOT 55 3 0 12 Jun 2024
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis Chaoyou Fu Yuhan Dai Yondong Luo Lei Li Shuhuai Ren ... Xiawu Zheng Enhong Chen Caifeng Shan Xing Sun Xing Sun VLM MLLM 106 357 0 31 May 2024
Reward Guided Latent Consistency Distillation Jiachen Li Weixi Feng Wenhu Chen William Y. Wang EGVM 50 13 0 16 Mar 2024
TempCompass: Do Video LLMs Really Understand Videos? Yuanxin Liu Shicheng Li Yi Liu Yuxiang Wang Shuhuai Ren Lei Li Sishuo Chen Xu Sun Lu Hou VLM 77 121 0 01 Mar 2024
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training Alex Jinpeng Wang Linjie Li Kevin Qinghong Lin Jianfeng Wang Kevin Lin Zhengyuan Yang Lijuan Wang Mike Zheng Shou VLM VGen 52 12 0 01 Jan 2024
MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI Xiang Yue Yuansheng Ni Kai Zhang Tianyu Zheng Ruoqi Liu ... Yibo Liu Wenhao Huang Huan Sun Yu-Chuan Su Wenhu Chen OSLM ELM VLM 155 833 0 27 Nov 2023
Qwen Technical Report Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang ... Zhenru Zhang Chang Zhou Jingren Zhou Xiaohuan Zhou Tianhang Zhu OSLM 174 1,756 0 28 Sep 2023
ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning Liang Zhao En Yu Zheng Ge Jinrong Yang Hao-Ran Wei ... Jian‐Yuan Sun Yuang Peng Runpei Dong Chunrui Han Xiangyu Zhang MLLM LRM 48 54 0 18 Jul 2023
InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning Wenliang Dai Junnan Li Dongxu Li A. M. H. Tiong Junqi Zhao Weisheng Wang Boyang Albert Li Pascale Fung Steven C. H. Hoi MLLM VLM 82 1,977 0 11 May 2023
Sigmoid Loss for Language Image Pre-Training Xiaohua Zhai Basil Mustafa Alexander Kolesnikov Lucas Beyer CLIP VLM 113 1,076 0 27 Mar 2023
The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models Alexander Pan Kush S. Bhatia Jacob Steinhardt 73 174 0 10 Jan 2022
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 763 28,659 0 26 Feb 2021
LVIS: A Dataset for Large Vocabulary Instance Segmentation Agrim Gupta Piotr Dollár Ross B. Girshick ISeg VLM 93 1,352 0 08 Aug 2019
HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips Antoine Miech Dimitri Zhukov Jean-Baptiste Alayrac Makarand Tapaswi Ivan Laptev Josef Sivic VGen 103 1,192 0 07 Jun 2019
AI Safety Gridworlds Jan Leike Miljan Martic Victoria Krakovna Pedro A. Ortega Tom Everitt Andrew Lefrancq Laurent Orseau Shane Legg 97 250 0 27 Nov 2017
Proximal Policy Optimization Algorithms John Schulman Filip Wolski Prafulla Dhariwal Alec Radford Oleg Klimov OffRL 285 18,685 0 20 Jul 2017
Towards Automatic Learning of Procedures from Web Instructional Videos Luowei Zhou Chenliang Xu Jason J. Corso EgoV 66 819 0 28 Mar 2017