VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research

6 April 2019

Lei Li

Papers citing "VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research"

50 / 339 papers shown

Title
AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark Wenhao Chai Enxin Song Y. Du Chenlin Meng Vashisht Madhavan Omer Bar-Tal Jeng-Neng Hwang Saining Xie Christopher D. Manning 3DV 84 25 0 04 Oct 2024
Frame-Voyager: Learning to Query Frames for Video Large Language Models Sicheng Yu Chengkai Jin Huanyu Wang Zhenghao Chen Sheng Jin ... Zhenbang Sun Bingni Zhang Jiawei Wu Hao Zhang Qianru Sun 67 5 0 04 Oct 2024
Vinoground: Scrutinizing LMMs over Dense Temporal Reasoning with Short Videos Jianrui Zhang Mu Cai Yong Jae Lee 32 6 0 03 Oct 2024
Learnable Expansion of Graph Operators for Multi-Modal Feature Fusion Dexuan Ding Lei Wang Liyun Zhu Tom Gedeon Piotr Koniusz 34 4 0 02 Oct 2024
VideoCLIP-XL: Advancing Long Description Understanding for Video CLIP Models Jiapeng Wang Chengyu Wang Kunzhe Huang Jun Huang Lianwen Jin CLIP VLM 37 3 0 01 Oct 2024
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval Yabing Wang Le Wang Qiang-feng Zhou Zhibin Wang Hao Li Gang Hua Wei Tang 33 7 0 30 Sep 2024
TokenBinder: Text-Video Retrieval with One-to-Many Alignment Paradigm Bingqing Zhang Zhuo Cao Heming Du Xin Yu Xue Li Jiajun Liu Sen Wang VGen 25 0 0 30 Sep 2024
Video DataFlywheel: Resolving the Impossible Data Trinity in Video-Language Understanding Xiao Wang Jianlong Wu Zijia Lin Fuzheng Zhang Di Zhang Liqiang Nie VGen 37 1 0 29 Sep 2024
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations Can Qin Congying Xia Krithika Ramakrishnan Michael S Ryoo Lifu Tu ... Silvio Savarese Juan Carlos Niebles Zeyuan Chen Ran Xu Caiming Xiong VGen DiffM 76 2 0 22 Aug 2024
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models Jiabo Ye Haiyang Xu Haowei Liu Anwen Hu Ming Yan Qi Qian Ji Zhang Fei Huang Jingren Zhou MLLM VLM 51 94 0 09 Aug 2024
VidGen-1M: A Large-Scale Dataset for Text-to-video Generation Zhiyu Tan Xiaomeng Yang Luozheng Qin Hao Li VGen 56 16 0 05 Aug 2024
MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions Xiaowei Chi Yatian Wang Aosong Cheng Pengjun Fang Zeyue Tian ... Wenhan Luo Qifeng Chen Shanghang Zhang Qi-fei Liu Yi-Ting Guo 72 7 0 30 Jul 2024
Start from Video-Music Retrieval: An Inter-Intra Modal Loss for Cross Modal Retrieval Zeyu Chen Pengfei Zhang Kai Ye Wei Dong Xin Feng Yana Zhang 43 0 0 28 Jul 2024
EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval Thomas Hummel Shyamgopal Karthik Mariana-Iuliana Georgescu Zeynep Akata EgoV 34 4 0 23 Jul 2024
Causal Understanding For Video Question Answering Bhanu Prakash Reddy Guda Tanmay Kulkarni Adithya Sampath Swarnashree Mysore Sathyendra CML 54 0 0 23 Jul 2024
WTS: A Pedestrian-Centric Traffic Video Dataset for Fine-grained Spatial-Temporal Understanding Quan Kong Yuki Kawana Rajat Saini Ashutosh Kumar Jingjing Pan ... Yohei Ozao Balázs Opra D. Anastasiu Yoichi Sato Norimasa Kobori VGen 38 8 0 22 Jul 2024
Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data Wufei Ma Kai Li Zhongshi Jiang Moustafa Meshry Qihao Liu Huiyu Wang Christian Hane Alan L. Yuille VGen 42 1 0 18 Jul 2024
Towards Zero-Shot Multimodal Machine Translation Matthieu Futeral Cordelia Schmid Benoît Sagot Rachel Bawden 35 3 0 18 Jul 2024
15M Multimodal Facial Image-Text Dataset Dawei Dai Yutang Li Yingge Liu Mingming Jia Zhang YuanHui Guoyin Wang VLM 31 7 0 11 Jul 2024
MiraData: A Large-Scale Video Dataset with Long Durations and Structured Captions Xuan Ju Yiming Gao Zhaoyang Zhang Ziyang Yuan Xintao Wang Ailing Zeng Yu Xiong Qiang Xu Ying Shan VGen 64 39 0 08 Jul 2024
Tarsier: Recipes for Training and Evaluating Large Video Description Models Jiawei Wang Liping Yuan Yuchen Zhang 44 52 0 30 Jun 2024
IWISDM: Assessing instruction following in multimodal models at scale Xiaoxuan Lei Lucas Gomez Hao Yuan Bai P. Bashivan VLM 33 1 0 20 Jun 2024
Live Video Captioning Eduardo Blanco-Fernández Carlos Gutiérrez-Álvarez Nadia Nasri Saturnino Maldonado-Bascón Roberto J. López-Sastre 39 0 0 20 Jun 2024
Explore the Limits of Omni-modal Pretraining at Scale Yiyuan Zhang Handong Li Jing Liu Xiangyu Yue VLM LRM 49 1 0 13 Jun 2024
MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos Xuehai He Weixi Feng Kaizhi Zheng Yujie Lu Wanrong Zhu ... Zhengyuan Yang Kevin Lin William Yang Wang Lijuan Wang Xin Eric Wang VGen LRM 43 12 0 12 Jun 2024
Vript: A Video Is Worth Thousands of Words Dongjie Yang Suyuan Huang Chengqiang Lu Xiaodong Han Haoxin Zhang Yan Gao Yao Hu Hai Zhao VGen 77 22 0 10 Jun 2024
Video-Language Understanding: A Survey from Model Architecture, Model Training, and Data Perspectives Thong Nguyen Yi Bin Junbin Xiao Leigang Qu Yicong Li Jay Zhangjie Wu Cong-Duy Nguyen See-Kiong Ng Luu Anh Tuan VLM 51 9 1 09 Jun 2024
Diving Deep into the Motion Representation of Video-Text Models Chinmaya Devaraj Cornelia Fermuller Yiannis Aloimonos DiffM VGen 36 0 0 07 Jun 2024
Seeing the Unseen: Visual Metaphor Captioning for Videos Abisek Rajakumar Kalarani Pushpak Bhattacharyya Sumit Shekhar VLM 32 1 0 07 Jun 2024
Searching Priors Makes Text-to-Video Synthesis Better Haoran Cheng Liang Peng Linxuan Xia Yuepeng Hu Hengjia Li Qinglin Lu Xiaofei He Boxi Wu VGen DiffM 36 0 0 05 Jun 2024
Understanding the Impact of Negative Prompts: When and How Do They Take Effect? Yuanhao Ban Ruochen Wang Tianyi Zhou Minhao Cheng Boqing Gong Cho-Jui Hsieh 34 15 0 05 Jun 2024
Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis Chaoyou Fu Yuhan Dai Yondong Luo Lei Li Shuhuai Ren ... Tong Xu Xiawu Zheng Enhong Chen Rongrong Ji Xing Sun VLM MLLM 50 300 0 31 May 2024
The Evolution of Multimodal Model Architectures S. Wadekar Abhishek Chaurasia Aman Chadha Eugenio Culurciello 43 14 0 28 May 2024
A Survey of Multimodal Large Language Model from A Data-centric Perspective Tianyi Bai Hao Liang Binwang Wan Yanran Xu Xi Li ... Ping-Chia Huang Jiulong Shan Conghui He Binhang Yuan Wentao Zhang 47 36 0 26 May 2024
A Survey on Multi-modal Machine Translation: Tasks, Methods and Challenges Huangjun Shen Liangying Shao Wenbo Li Zhibin Lan Zhanyu Liu Jinsong Su 38 2 0 21 May 2024
TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation Hritik Bansal Yonatan Bitton Michal Yarom Idan Szpektor Aditya Grover Kai-Wei Chang DiffM 54 11 0 07 May 2024
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond Zheng Zhu Xiaofeng Wang Wangbo Zhao Chen Min Nianchen Deng ... Dawei Zhao Liang Xiao Jian-jun Zhao Jiwen Lu Guan Huang VGen LM&Ro 84 37 0 06 May 2024
MANTIS: Interleaved Multi-Image Instruction Tuning Dongfu Jiang Xuan He Huaye Zeng Cong Wei Max W.F. Ku Qian Liu Wenhu Chen VLM MLLM 33 100 0 02 May 2024
Movie101v2: Improved Movie Narration Benchmark Zihao Yue Yepeng Zhang Ziheng Wang Qin Jin VGen 38 1 0 20 Apr 2024
Improving Interpretable Embeddings for Ad-hoc Video Search with Generative Captions and Multi-word Concept Bank Jiaxin Wu Chong-Wah Ngo W. Chan VGen 30 1 0 09 Apr 2024
JRDB-Social: A Multifaceted Robotic Dataset for Understanding of Context and Dynamics of Human Interactions Within Social Groups Simindokht Jahangard Zhixi Cai Shiki Wen Hamid Rezatofighi 31 6 0 06 Apr 2024
LocCa: Visual Pretraining with Location-aware Captioners Bo Wan Michael Tschannen Yongqin Xian Filip Pavetić Ibrahim M. Alabdulmohsin Xiao Wang André Susano Pinto Andreas Steiner Lucas Beyer Xiao-Qi Zhai VLM 51 6 0 28 Mar 2024
Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval Jiamian Wang Guohao Sun Pichao Wang Dongfang Liu S. Dianat Majid Rabbani Raghuveer M. Rao Zhiqiang Tao VGen 57 20 0 26 Mar 2024
Coimagining the Future of Voice Assistants with Cultural Sensitivity Katie Seaborn Yuto Sawa Mizuki Watanabe 27 7 0 26 Mar 2024
m3P: Towards Multimodal Multilingual Translation with Multimodal Prompt Jian Yang Hongcheng Guo Yuwei Yin Jiaqi Bai Bing Wang Jiaheng Liu Xinnian Liang Linzheng Cahi Liqun Yang Zhoujun Li 40 9 0 26 Mar 2024
VidLA: Video-Language Alignment at Scale Mamshad Nayeem Rizve Fan Fei Jayakrishnan Unnikrishnan Son Tran Benjamin Z. Yao Belinda Zeng Mubarak Shah Trishul M. Chilimbi VLM AI4TS 55 4 0 21 Mar 2024
CAT: Enhancing Multimodal Large Language Model to Answer Questions in Dynamic Audio-Visual Scenarios Qilang Ye Zitong Yu Rui Shao Xinyu Xie Philip H. S. Torr Xiaochun Cao MLLM 42 24 0 07 Mar 2024
The Case for Evaluating Multimodal Translation Models on Text Datasets Vipin Vijayan Braeden Bowen Scott Grigsby Timothy Anderson Jeremy Gwinnup 33 3 0 05 Mar 2024
Panda-70M: Captioning 70M Videos with Multiple Cross-Modality Teachers Tsai-Shien Chen Aliaksandr Siarohin Willi Menapace Ekaterina Deyneka Hsiang-wei Chao ... Yuwei Fang Hsin-Ying Lee Jian Ren Ming-Hsuan Yang Sergey Tulyakov VGen 86 178 0 29 Feb 2024
MORE: Multi-mOdal REtrieval Augmented Generative Commonsense Reasoning Wanqing Cui Keping Bi J. Guo Xueqi Cheng SyDa ReLM RALM LRM 29 7 0 21 Feb 2024