X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics

18 August 2021

Yingwei Pan

Tao Mei

Papers citing "X-modaler: A Versatile and High-performance Codebase for Cross-modal Analytics"

27 / 27 papers shown

Title
Scheduled Sampling in Vision-Language Pretraining with Decoupled Encoder-Decoder Network Yehao Li Yingwei Pan Ting Yao Jingwen Chen Tao Mei VLM 61 52 0 27 Jan 2021
Auto-captions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training Yingwei Pan Yehao Li Jianjie Luo Jun Xu Ting Yao Tao Mei 65 57 0 05 Jul 2020
X-Linear Attention Networks for Image Captioning Yingwei Pan Ting Yao Yehao Li Tao Mei 87 509 0 31 Mar 2020
Meshed-Memory Transformer for Image Captioning Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara 49 873 0 17 Dec 2019
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 327 933 0 24 Sep 2019
Hierarchy Parsing for Image Captioning Ting Yao Yingwei Pan Yehao Li Tao Mei VLM 54 164 0 09 Sep 2019
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks Jiasen Lu Dhruv Batra Devi Parikh Stefan Lee SSL VLM 205 3,659 0 06 Aug 2019
Deep Modular Co-Attention Networks for Visual Question Answering Zhou Yu Jun Yu Yuhao Cui Dacheng Tao Q. Tian 79 802 0 25 Jun 2019
Temporal Deformable Convolutional Encoder-Decoder Networks for Video Captioning Jingwen Chen Yingwei Pan Yehao Li Ting Yao Hongyang Chao Tao Mei 44 103 0 03 May 2019
Exploring Visual Relationship for Image Captioning Ting Yao Yingwei Pan Yehao Li Tao Mei 70 830 0 19 Sep 2018
Bilinear Attention Networks Jin-Hwa Kim Jaehyun Jun Byoung-Tak Zhang AIMat 78 871 0 21 May 2018
Jointly Localizing and Describing Events for Dense Video Captioning Yehao Li Ting Yao Yingwei Pan Hongyang Chao Tao Mei 45 170 0 23 Apr 2018
Convolutional Image Captioning J. Aneja Aditya Deshpande Alex Schwing VLM 118 360 0 24 Nov 2017
Incorporating Copying Mechanism in Image Captioning for Learning Novel Objects Ting Yao Yingwei Pan Yehao Li Tao Mei VLM 51 146 0 17 Aug 2017
Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering Peter Anderson Xiaodong He Chris Buehler Damien Teney Mark Johnson Stephen Gould Lei Zhang AIMat 104 4,201 0 25 Jul 2017
Attention Is All You Need Ashish Vaswani Noam M. Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin 3DV 514 129,831 0 12 Jun 2017
Self-critical Sequence Training for Image Captioning Steven J. Rennie E. Marcheret Youssef Mroueh Jerret Ross Vaibhava Goel 103 1,882 0 02 Dec 2016
Video Captioning with Transferred Semantic Attributes Yingwei Pan Ting Yao Houqiang Li Tao Mei 57 329 0 23 Nov 2016
Boosting Image Captioning with Attributes Ting Yao Yingwei Pan Yehao Li Zhaofan Qiu Tao Mei VLM 80 621 0 05 Nov 2016
Rethinking the Inception Architecture for Computer Vision Christian Szegedy Vincent Vanhoucke Sergey Ioffe Jonathon Shlens Z. Wojna 3DV BDL 575 27,231 0 02 Dec 2015
Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks Samy Bengio Oriol Vinyals Navdeep Jaitly Noam M. Shazeer 127 2,030 0 09 Jun 2015
Jointly Modeling Embedding and Translation to Bridge Video and Language Yingwei Pan Tao Mei Ting Yao Houqiang Li Y. Rui 73 534 0 07 May 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 162 5,421 0 03 May 2015
Microsoft COCO Captions: Data Collection and Evaluation Server Xinlei Chen Hao Fang Nayeon Lee Ramakrishna Vedantam Saurabh Gupta Piotr Dollar C. L. Zitnick 174 2,461 0 01 Apr 2015
Describing Videos by Exploiting Temporal Structure L. Yao Atousa Torabi Kyunghyun Cho Nicolas Ballas C. Pal Hugo Larochelle Aaron Courville 136 1,063 0 27 Feb 2015
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Ke Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhutdinov R. Zemel Yoshua Bengio DiffM 298 10,034 0 10 Feb 2015
Translating Videos to Natural Language Using Deep Recurrent Neural Networks Subhashini Venugopalan Huijuan Xu Jeff Donahue Marcus Rohrbach Raymond J. Mooney Kate Saenko 101 951 0 15 Dec 2014