VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research

6 April 2019

Lei Li

Papers citing "VATEX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research"

50 / 339 papers shown

Title
Renmin University of China at TRECVID 2022: Improving Video Search by Feature Fusion and Negation Understanding Xirong Li Aozhu Chen Ziyue Wang Fan Hu Kaibin Tian Xinru Chen Chengbo Dong 19 2 0 28 Nov 2022
Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation Tsu-jui Fu Licheng Yu Ning Zhang Cheng-Yang Fu Jong-Chyi Su William Yang Wang Sean Bell VGen 56 37 0 23 Nov 2022
Aligning Source Visual and Target Language Domains for Unpaired Video Captioning Fenglin Liu Xian Wu Chenyu You Shen Ge Yuexian Zou Xu Sun 19 23 0 22 Nov 2022
SMAUG: Sparse Masked Autoencoder for Efficient Video-Language Pre-training Yuanze Lin Chen Wei Huiyu Wang Alan Yuille Cihang Xie 3DGS 31 15 0 21 Nov 2022
Are All Combinations Equal? Combining Textual and Visual Features with Multiple Space Learning for Text-Based Video Retrieval Damianos Galanopoulos Vasileios Mezaris 19 7 0 21 Nov 2022
Cross-Modal Adapter for Text-Video Retrieval Haojun Jiang Jianke Zhang Rui Huang Chunjiang Ge Zanlin Ni Jiwen Lu Jie Zhou S. Song Gao Huang 45 36 0 17 Nov 2022
Visual Commonsense-aware Representation Network for Video Captioning Pengpeng Zeng Haonan Zhang Lianli Gao Xiangpeng Li Jin Qian Hengtao Shen 29 16 0 17 Nov 2022
CLOP: Video-and-Language Pre-Training with Knowledge Regularizations Guohao Li Hu Yang Feng He Zhifan Feng Yajuan Lyu Hua-Hong Wu Haifeng Wang VLM 21 1 0 07 Nov 2022
Multilingual Multimodality: A Taxonomical Survey of Datasets, Techniques, Challenges and Opportunities Khyathi Raghavi Chandu A. Geramifard 37 3 0 30 Oct 2022
Retrieval Augmentation for Commonsense Reasoning: A Unified Approach W. Yu Chenguang Zhu Zhihan Zhang Shuohang Wang Zhuosheng Zhang Yuwei Fang Meng-Long Jiang LRM ReLM 15 19 0 23 Oct 2022
Metric-guided Distillation: Distilling Knowledge from the Metric to Ranker and Retriever for Generative Commonsense Reasoning Xingwei He Yeyun Gong Alex Jin Weizhen Qi Hang Zhang Jian Jiao Bartuer Zhou Biao Cheng Sm Yiu Nan Duan 30 11 0 21 Oct 2022
ConTra: (Con)text (Tra)nsformer for Cross-Modal Video Retrieval A. Fragomeni Michael Wray Dima Damen CLIP ViT 25 3 0 09 Oct 2022
Learning Fine-Grained Visual Understanding for Video Question Answering via Decoupling Spatial-Temporal Modeling Hsin-Ying Lee Hung-Ting Su Bing-Chen Tsai Tsung-Han Wu Jia-Fong Yeh Winston H. Hsu 27 2 0 08 Oct 2022
C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval Andrew Rouditchenko Yung-Sung Chuang Nina Shvetsova Samuel Thomas Rogerio Feris Brian Kingsbury Leonid Karlinsky David F. Harwath Hilde Kuehne James R. Glass VLM 28 4 0 07 Oct 2022
Vision+X: A Survey on Multimodal Learning in the Light of Data Ye Zhu Yuehua Wu N. Sebe Yan Yan 33 16 0 05 Oct 2022
SmallCap: Lightweight Image Captioning Prompted with Retrieval Augmentation R. Ramos Bruno Martins Desmond Elliott Yova Kementchedjhieva VLM 30 86 0 30 Sep 2022
LGDN: Language-Guided Denoising Network for Video-Language Modeling Haoyu Lu Mingyu Ding Nanyi Fei Yuqi Huo Zhiwu Lu VLM 82 16 0 23 Sep 2022
Distribution Aware Metrics for Conditional Natural Language Generation David M. Chan Yiming Ni David A. Ross Sudheendra Vijayanarasimhan Austin Myers John F. Canny 45 4 0 15 Sep 2022
MaXM: Towards Multilingual Visual Question Answering Soravit Changpinyo Linting Xue Michal Yarom Ashish V. Thapliyal Idan Szpektor J. Amelot Xi Chen Radu Soricut 33 8 0 12 Sep 2022
An Empirical Study of End-to-End Video-Language Transformers with Masked Visual Modeling Tsu-jui Fu Linjie Li Zhe Gan Kevin Qinghong Lin William Yang Wang Lijuan Wang Zicheng Liu VLM 21 63 0 04 Sep 2022
On Grounded Planning for Embodied Tasks with Language Models Bill Yuchen Lin Chengsong Huang Qian Liu Wenda Gu Sam Sommerer Xiang Ren LM&Ro 34 39 0 29 Aug 2022
Cross-Lingual Cross-Modal Retrieval with Noise-Robust Learning Yabing Wang Jianfeng Dong Tianxiang Liang Minsong Zhang Rui Cai Xun Wang 29 19 0 26 Aug 2022
Partially Relevant Video Retrieval Jianfeng Dong Xianke Chen Minsong Zhang Xun Yang Shujie Chen Xirong Li Xun Wang 17 39 0 26 Aug 2022
Diverse Video Captioning by Adaptive Spatio-temporal Attention Zohreh Ghaderi Leonard Salewski Hendrik P. A. Lensch 13 8 0 19 Aug 2022
Boosting Video-Text Retrieval with Explicit High-Level Semantics Haoran Wang Di Xu Dongliang He Fu Li Zhong Ji Jungong Han Errui Ding 26 11 0 08 Aug 2022
A Feature-space Multimodal Data Augmentation Technique for Text-video Retrieval Alex Falcon G. Serra Oswald Lanz VGen 36 25 0 03 Aug 2022
Video Question Answering with Iterative Video-Text Co-Tokenization A. Piergiovanni K. Morton Weicheng Kuo Michael S. Ryoo A. Angelova 22 18 0 01 Aug 2022
Unifying Event Detection and Captioning as Sequence Generation via Pre-Training Qi Zhang Yuqing Song Qin Jin 30 24 0 18 Jul 2022
TS2-Net: Token Shift and Selection Transformer for Text-Video Retrieval Yuqi Liu Pengfei Xiong Luhui Xu Shengming Cao Qin Jin 33 113 0 16 Jul 2022
CLEAR: Improving Vision-Language Navigation with Cross-Lingual, Environment-Agnostic Representations Jialu Li Hao Tan Mohit Bansal LM&Ro 61 12 0 05 Jul 2022
(Un)likelihood Training for Interpretable Embedding Jiaxin Wu Chong-Wah Ngo W. Chan Zhijian Hou 12 2 0 01 Jul 2022
VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix Teng Wang Wenhao Jiang Zhichao Lu Feng Zheng Ran Cheng Chengguo Yin Ping Luo VLM 26 43 0 17 Jun 2022
VLMbench: A Compositional Benchmark for Vision-and-Language Manipulation Kai Zheng Xiaotong Chen Odest Chadwicke Jenkins X. Wang LM&Ro CoGe 21 54 0 17 Jun 2022
LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling Linjie Li Zhe Gan Kevin Qinghong Lin Chung-Ching Lin Zicheng Liu Ce Liu Lijuan Wang MLLM VLM 20 81 0 14 Jun 2022
Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval Xudong Lin Simran Tiwari Shiyuan Huang Manling Li Mike Zheng Shou Heng Ji Shih-Fu Chang 25 20 0 05 Jun 2022
VALHALLA: Visual Hallucination for Machine Translation Yi Li Rameswar Panda Yoon Kim Chun-Fu Chen Rogerio Feris David D. Cox Nuno Vasconcelos MLLM 38 38 0 31 May 2022
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu Jie Tang DiffM 254 566 0 29 May 2022
GIT: A Generative Image-to-text Transformer for Vision and Language Jianfeng Wang Zhengyuan Yang Xiaowei Hu Linjie Li Kevin Qinghong Lin Zhe Gan Zicheng Liu Ce Liu Lijuan Wang VLM 35 527 0 27 May 2022
Language Models with Image Descriptors are Strong Few-Shot Video-Language Learners Zhenhailong Wang Manling Li Ruochen Xu Luowei Zhou Jie Lei ... Chenguang Zhu Derek Hoiem Shih-Fu Chang Mohit Bansal Heng Ji MLLM VLM 170 137 0 22 May 2022
What's in a Caption? Dataset-Specific Linguistic Diversity and Its Effect on Visual Description Models and Metrics David M. Chan Austin Myers Sudheendra Vijayanarasimhan David A. Ross Bryan Seybold John F. Canny 26 6 0 12 May 2022
One Model, Multiple Modalities: A Sparsely Activated Approach for Text, Sound, Image, Video and Code Yong Dai Duyu Tang Liangxin Liu Minghuan Tan Cong Zhou Jingquan Wang Zhangyin Feng Fan Zhang Xueyu Hu Shuming Shi VLM MoE 28 26 0 12 May 2022
Attract me to Buy: Advertisement Copywriting Generation with Multimodal Multi-structured Information Zhipeng Zhang Xinglin Hou K. Niu Zhongzhen Huang T. Ge Yuning Jiang Qi Wu Peifeng Wang 26 4 0 07 May 2022
Learn to Understand Negation in Video Retrieval Ziyue Wang Aozhu Chen Fan Hu Xirong Li SSL 11 12 0 30 Apr 2022
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 46 3,334 0 29 Apr 2022
A Multi-level Alignment Training Scheme for Video-and-Language Grounding Yubo Zhang Feiyang Niu Q. Ping Govind Thattai CVBM 39 2 0 22 Apr 2022
Video Captioning: a comparative review of where we are and which could be the route Daniela Moctezuma Tania A. Ramirez-delreal Guillermo Ruiz Othón González-Chávez 19 11 0 12 Apr 2022
GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval Yuxuan Wang Difei Gao Licheng Yu Stan Weixian Lei Matt Feiszli Mike Zheng Shou 9 24 0 01 Apr 2022
Text-Driven Video Acceleration: A Weakly-Supervised Reinforcement Learning Method W. Ramos M. Silva Edson R. Araujo Victor Moura Keller Clayderman Martins de Oliveira Leandro Soriano Marcolino Erickson R. Nascimento VGen 11 3 0 29 Mar 2022
3MASSIV: Multilingual, Multimodal and Multi-Aspect dataset of Social Media Short Videos Vikram Gupta Trisha Mittal Puneet Mathur Vaibhav Mishra Mayank Maheshwari Aniket Bera Debdoot Mukherjee Dinesh Manocha VGen 21 11 0 28 Mar 2022
How Do You Do It? Fine-Grained Action Understanding with Pseudo-Adverbs Hazel Doughty Cees G. M. Snoek 25 19 0 23 Mar 2022