All in One: Exploring Unified Video-Language Pre-training

14 March 2022

Rui Yan

Ying Shan

Papers citing "All in One: Exploring Unified Video-Language Pre-training"

50 / 152 papers shown

Title
REVEAL: Relation-based Video Representation Learning for Video-Question-Answering Sofian Chaybouti Walid Bousselham Moritz Wolter Hilde Kuehne 110 0 0 07 Apr 2025
VideoComp: Advancing Fine-Grained Compositional and Temporal Alignment in Video-Text Models Dahun Kim A. Piergiovanni Ganesh Mallya A. Angelova CoGe 41 0 0 04 Apr 2025
Leveraging Static Relationships for Intra-Type and Inter-Type Message Passing in Video Question Answering Lili Liang Guanglu Sun 48 0 0 03 Apr 2025
Unbiasing through Textual Descriptions: Mitigating Representation Bias in Video Benchmarks Nina Shvetsova Arsha Nagrani Bernt Schiele Hilde Kuehne Christian Rupprecht 50 0 0 24 Mar 2025
Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval Arun V. Reddy Alexander Martin Eugene Yang Andrew Yates Kate Sanders Kenton W. Murray Reno Kriz Celso M. De Melo Benjamin Van Durme Rama Chellappa 50 1 0 24 Mar 2025
TIME: Temporal-sensitive Multi-dimensional Instruction Tuning and Benchmarking for Video-LLMs Yunxiao Wang Meng Liu Rui Shao Haoyu Zhang Bin Wen Fan Yang Tingting Gao Di Zhang Liqiang Nie 62 1 0 13 Mar 2025
Towards Fine-Grained Video Question Answering Wei Dai Alan Luo Zane Durante Debadutta Dash Arnold Milstein Kevin Schulman Ehsan Adeli L. Fei-Fei 66 1 0 10 Mar 2025
BounTCHA: A CAPTCHA Utilizing Boundary Identification in Guided Generative AI-extended Videos Lehao Lin Ke Wang Maha Abdallah Wei Cai AAML 90 0 0 30 Jan 2025
Hierarchical Banzhaf Interaction for General Video-Language Representation Learning Peng Jin H. Li Li Yuan Shuicheng Yan Jie Chen 52 1 0 31 Dec 2024
When SAM2 Meets Video Shadow and Mirror Detection Leiping Jie VLM 35 0 0 26 Dec 2024
Learning to Reason Iteratively and Parallelly for Complex Visual Reasoning Scenarios Shantanu Jaiswal Debaditya Roy Basura Fernando Cheston Tan ReLM LRM 79 2 0 20 Nov 2024
Are Visual-Language Models Effective in Action Recognition? A Comparative Study Mahmoud Ali Di Yang François Brémond VLM 51 0 0 22 Oct 2024
Multimodal Clickbait Detection by De-confounding Biases Using Causal Representation Inference Jianxing Yu Shiqi Wang Han Yin Zhenlong Sun Ruobing Xie Bo Zhang Yanghui Rao CML 35 0 0 10 Oct 2024
EAGLE: Egocentric AGgregated Language-video Engine Jing Bi Yunlong Tang Luchuan Song A. Vosoughi Nguyen Nguyen Chenliang Xu 42 8 0 26 Sep 2024
FaceVid-1K: A Large-Scale High-Quality Multiracial Human Face Video Dataset Donglin Di H. Feng Wenzhang Sun Yongjia Ma Hao Li Wei Chen Xiaofei Gou Tonghua Su Xun Yang CVBM 46 2 0 23 Sep 2024
Uncertainty-Guided Self-Questioning and Answering for Video-Language Alignment Jin Chen Kaijing Ma Haojian Huang Jiayu Shen Han Fang Xianghao Zang Chao Ban 79 2 0 17 Sep 2024
QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems Zhixian He Pengcheng Zhao Fuwei Zhang Shujin Lin 41 0 0 14 Sep 2024
Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models Jean Park Kuk Jin Jang Basam Alasaly Sriharsha Mopidevi Andrew Zolensky Eric Eaton Insup Lee Kevin Johnson 35 4 0 22 Aug 2024
NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality Chaofan Tao Gukyeong Kwon Varad Gunjal Hao Yang Zhaowei Cai Yonatan Dukler Ashwin Swaminathan R. Manmatha Colin Jon Taylor Stefano Soatto CoGe 29 0 0 18 Aug 2024
Learning Video Context as Interleaved Multimodal Sequences S. Shao Pengchuan Zhang Y. Li Xide Xia A. Meso Ziteng Gao Jinheng Xie N. Holliman Mike Zheng Shou 43 5 0 31 Jul 2024
End-to-End Video Question Answering with Frame Scoring Mechanisms and Adaptive Sampling Jianxin Liang Xiaojun Meng Yueqian Wang Chang Liu Qun Liu Dongyan Zhao 29 5 0 21 Jul 2024
Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement Zijie Yue Miaojing Shi Hanli Wang Shuai Ding Qijun Chen Shanlin Yang 39 0 0 11 Jul 2024
Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning Thong Nguyen Yi Bin Xiaobao Wu Xinshuai Dong Zhiyuan Hu Khoi M. Le Cong-Duy Nguyen See-Kiong Ng Luu Anh Tuan 39 5 0 04 Jul 2024
Tarsier: Recipes for Training and Evaluating Large Video Description Models Jiawei Wang Liping Yuan Yuchen Zhang 44 52 0 30 Jun 2024
Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment Hao Fei Shengqiong Wu Meishan Zhang M. Zhang Tat-Seng Chua Shuicheng Yan AI4TS 47 40 0 27 Jun 2024
Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives Thong Nguyen Yi Bin Junbin Xiao Leigang Qu Yicong Li Jay Zhangjie Wu Cong-Duy Nguyen See-Kiong Ng Luu Anh Tuan VLM 51 9 1 09 Jun 2024
Text-to-Events: Synthetic Event Camera Streams from Conditional Text Input Joachim Ott Zuowen Wang Shih-Chii Liu DiffM VGen 42 0 0 05 Jun 2024
Uni-ISP: Unifying the Learning of ISPs from Multiple Cameras Lingen Li Mingde Yao Xingyu Meng Muquan Yu Tianfan Xue Jinwei Gu 42 0 0 03 Jun 2024
Can't make an Omelette without Breaking some Eggs: Plausible Action Anticipation using Large Video-Language Models Himangi Mittal Nakul Agarwal Shao-Yuan Lo Kwonjoon Lee 41 14 0 30 May 2024
Encoding and Controlling Global Semantics for Long-form Video Question Answering Thong Nguyen Zhiyuan Hu Xiaobao Wu Cong-Duy Nguyen See-Kiong Ng A. Luu 43 2 0 30 May 2024
CaLa: Complementary Association Learning for Augmenting Composed Image Retrieval Xintong Jiang Yaxiong Wang Mengjian Li Yujiao Wu Bingwen Hu Xueming Qian CoGe 40 4 0 29 May 2024
Unified Video-Language Pre-training with Synchronized Audio Shentong Mo Haofan Wang Huaxia Li Xu Tang 32 2 0 12 May 2024
pFedLVM: A Large Vision Model (LVM)-Driven and Latent Feature-Based Personalized Federated Learning Framework in Autonomous Driving Wei-Bin Kou Qingfeng Lin Ming Tang Sheng Xu Rongguang Ye ... Shuai Wang Guofa Li Zhenyu Chen Guangxu Zhu Yik-Chung Wu FedML 52 11 0 07 May 2024
Neural-Symbolic VideoQA: Learning Compositional Spatio-Temporal Reasoning for Real-world Video Question Answering Lili Liang Guanglu Sun Jin Qiu Lizhong Zhang NAI 24 3 0 05 Apr 2024
DIBS: Enhancing Dense Video Captioning with Unlabeled Videos via Pseudo Boundary Enrichment and Online Refinement Hao Wu Huabin Liu Yu Qiao Xiao Sun 3DV 16 7 0 03 Apr 2024
VideoDistill: Language-aware Vision Distillation for Video Question Answering Bo Zou Chao Yang Yu Qiao Chengbin Quan Youjian Zhao VGen 47 1 0 01 Apr 2024
LocCa: Visual Pretraining with Location-aware Captioners Bo Wan Michael Tschannen Yongqin Xian Filip Pavetić Ibrahim M. Alabdulmohsin Xiao Wang André Susano Pinto Andreas Steiner Lucas Beyer Xiao-Qi Zhai VLM 49 6 0 28 Mar 2024
EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-centric View of Procedural Activities in Real World Yifei Huang Guo Chen Jilan Xu Mingfang Zhang Lijin Yang ... Hongjie Zhang Lu Dong Yali Wang Limin Wang Yu Qiao EgoV 60 36 0 24 Mar 2024
InternVideo2: Scaling Video Foundation Models for Multimodal Video Understanding Yi Wang Kunchang Li Xinhao Li Jiashuo Yu Yinan He ... Hongjie Zhang Yifei Huang Yu Qiao Yali Wang Limin Wang 34 44 0 22 Mar 2024
VidLA: Video-Language Alignment at Scale Mamshad Nayeem Rizve Fan Fei Jayakrishnan Unnikrishnan Son Tran Benjamin Z. Yao Belinda Zeng Mubarak Shah Trishul M. Chilimbi VLM AI4TS 52 4 0 21 Mar 2024
Ranking Distillation for Open-Ended Video Question Answering with Insufficient Labels Tianming Liang Chaolei Tan Beihao Xia Wei-Shi Zheng Jianfang Hu 33 1 0 21 Mar 2024
vid-TLDR: Training Free Token merging for Light-weight Video Transformer Joonmyung Choi Sanghyeok Lee Jaewon Chu Minhyuk Choi Hyunwoo J. Kim MoMe ViT 44 12 0 20 Mar 2024
Generalized Predictive Model for Autonomous Driving Jiazhi Yang Shenyuan Gao Yihang Qiu Li Chen Tianyu Li ... Ping Luo Jun Zhang Andreas Geiger Yu Qiao Hongyang Li VGen 73 57 0 14 Mar 2024
LSTP: Language-guided Spatial-Temporal Prompt Learning for Long-form Video-Text Understanding Yuxuan Wang Yueqian Wang Pengfei Wu Jianxin Liang Dongyan Zhao Zilong Zheng VLM 28 9 0 25 Feb 2024
VideoPrism: A Foundational Visual Encoder for Video Understanding Long Zhao N. B. Gundavarapu Liangzhe Yuan Hao Zhou Shen Yan ... Huisheng Wang Hartwig Adam Mikhail Sirotenko Ting Liu Boqing Gong VGen 36 29 0 20 Feb 2024
LVCHAT: Facilitating Long Video Comprehension Yu-Xiang Wang Zeyuan Zhang Julian McAuley Zexue He VLM 32 4 0 19 Feb 2024
Comment-aided Video-Language Alignment via Contrastive Pre-training for Short-form Video Humor Detection Yang Liu Tongfei Shen Dong Zhang Qingying Sun Shoushan Li Guodong Zhou 24 4 0 14 Feb 2024
BDIQA: A New Dataset for Video Question Answering to Explore Cognitive Reasoning through Theory of Mind Yuanyuan Mao Xin Lin Qin Ni Liang He 23 3 0 12 Feb 2024
Multi-granularity Correspondence Learning from Long-term Noisy Videos Yijie Lin Jie Zhang Zhenyu Huang Jia-Wei Liu Zujie Wen Xi Peng 37 18 0 30 Jan 2024
A Multi-Perspective Machine Learning Approach to Evaluate Police-Driver Interaction in Los Angeles Benjamin A.T. Grahama Lauren Brown Georgios Chochlakis Morteza Dehghani Raquel Delerme ... Mayaguez Salinas Michael Sierra-Arévalo Jackson Trager Nicholas Weller Shrikanth Narayan HAI 13 3 0 24 Jan 2024