Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models

10 November 2014

Papers citing "Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models"

50 / 263 papers shown

Title
Contrastive Learning of Visual-Semantic Embeddings Anurag Jain Yashaswi Verma SSL 33 1 0 17 Oct 2021
Improving Zero-shot Multilingual Neural Machine Translation for Low-Resource Languages Chenyang Li Gongxu Luo 32 1 0 02 Oct 2021
VideoCLIP: Contrastive Pre-training for Zero-shot Video-Text Understanding Hu Xu Gargi Ghosh Po-Yao (Bernie) Huang Dmytro Okhonko Armen Aghajanyan Florian Metze Luke Zettlemoyer Florian Metze Luke Zettlemoyer Christoph Feichtenhofer CLIP VLM 259 561 0 28 Sep 2021
An animated picture says at least a thousand words: Selecting Gif-based Replies in Multimodal Dialog Xingyao Wang David Jurgens 24 5 0 24 Sep 2021
Big Data driven Product Design: A Survey Huafeng Quan Shaobo Li Changchang Zeng Hongjing Wei Jianjun Hu 20 2 0 06 Sep 2021
Attribute Guided Sparse Tensor-Based Model for Person Re-Identification Fariborz Taherkhani Ali Dabouei Sobhan Soleymani J. Dawson Nasser M. Nasrabadi CVBM 38 2 0 29 Jul 2021
HANet: Hierarchical Alignment Networks for Video-Text Retrieval Peng Wu Xiangteng He Mingqian Tang Yiliang Lv Jing Liu 42 52 0 26 Jul 2021
From Show to Tell: A Survey on Deep Learning-based Image Captioning Matteo Stefanini Marcella Cornia Lorenzo Baraldi S. Cascianelli G. Fiameni Rita Cucchiara 3DV VLM MLLM 69 256 0 14 Jul 2021
PhotoChat: A Human-Human Dialogue Dataset with Photo Sharing Behavior for Joint Image-Text Modeling Xiaoxue Zang Lijuan Liu Maria Wang Yang Song Hao Zhang Jindong Chen VLM 35 55 0 06 Jul 2021
Parts2Words: Learning Joint Embedding of Point Clouds and Texts by Bidirectional Matching between Parts and Words Chuan Tang Xi Yang Bojian Wu Zhizhong Han Yi Chang 3DPC 35 13 0 05 Jul 2021
CLIP2Video: Mastering Video-Text Retrieval via Image CLIP Han Fang Pengfei Xiong Luhui Xu Yu Chen CLIP VLM 52 292 0 21 Jun 2021
Step-Wise Hierarchical Alignment Network for Image-Text Matching Zhong Ji Kexin Chen Haoran Wang 22 93 0 11 Jun 2021
Multi-Modal Image Captioning for the Visually Impaired Hiba Ahsan Nikita Bhalla Daivat Bhatt Kaivankumar Shah 25 20 0 17 May 2021
T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval Xiaohan Wang Linchao Zhu Yi Yang 170 170 0 20 Apr 2021
CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval Huaishao Luo Lei Ji Ming Zhong Yang Chen Wen Lei Nan Duan Tianrui Li CLIP VLM 329 782 0 18 Apr 2021
Automatic Generation of Descriptive Titles for Video Clips Using Deep Learning Soheyla Amirian Khaled Rasheed T. Taha H. Arabnia VLM VGen 19 23 0 07 Apr 2021
Towards General Purpose Vision Systems Tanmay Gupta Amita Kamath Aniruddha Kembhavi Derek Hoiem 13 50 0 01 Apr 2021
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval Max Bain Arsha Nagrani Gül Varol Andrew Zisserman VGen 57 1,134 0 01 Apr 2021
VLGrammar: Grounded Grammar Induction of Vision and Language Yining Hong Qing Li Song-Chun Zhu Siyuan Huang VLM 33 25 0 24 Mar 2021
Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual Transfer of Vision-Language Models Po-Yao (Bernie) Huang Mandela Patrick Junjie Hu Graham Neubig Florian Metze Alexander G. Hauptmann MLLM VLM 29 56 0 16 Mar 2021
LightningDOT: Pre-training Visual-Semantic Embeddings for Real-Time Image-Text Retrieval Siqi Sun Yen-Chun Chen Linjie Li Shuohang Wang Yuwei Fang Jingjing Liu VLM 41 82 0 16 Mar 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 224 27,929 0 26 Feb 2021
A Universal Model for Cross Modality Mapping by Relational Reasoning Zun Li Congyan Lang Liqian Liang Tao Wang Songhe Feng Jun Wu Yidong Li 30 2 0 26 Feb 2021
Decoupling the Role of Data, Attention, and Losses in Multimodal Transformers Lisa Anne Hendricks John F. J. Mellor R. Schneider Jean-Baptiste Alayrac Aida Nematzadeh 79 110 0 31 Jan 2021
Similarity Reasoning and Filtration for Image-Text Matching Haiwen Diao Ying Zhang Lingyun Ma Huchuan Lu 240 332 0 05 Jan 2021
3D Human motion anticipation and classification Emad Barsoum J. Kender Zicheng Liu 3DH 21 1 0 31 Dec 2020
AutoCaption: Image Captioning with Neural Architecture Search Xinxin Zhu Weining Wang Longteng Guo Jing Liu 32 9 0 16 Dec 2020
ActBERT: Learning Global-Local Video-Text Representations Linchao Zhu Yi Yang ViT 49 417 0 14 Nov 2020
COOT: Cooperative Hierarchical Transformer for Video-Text Representation Learning Simon Ging Mohammadreza Zolfaghari Hamed Pirsiavash Thomas Brox ViT CLIP 31 169 0 01 Nov 2020
Learning Dual Semantic Relations with Graph Attention for Image-Text Matching Keyu Wen Xiaodong Gu Qingrong Cheng 27 95 0 22 Oct 2020
Contrastive Cross-Modal Pre-Training: A General Strategy for Small Sample Medical Imaging G. Liang Connor Greenwell Yu Zhang Xiaoqin Wang Ramakanth Kavuluru Nathan Jacobs 42 21 0 06 Oct 2020
Generative Imagination Elevates Machine Translation Quanyu Long Mingxuan Wang Lei Li 32 35 0 21 Sep 2020
The VISIONE Video Search System: Exploiting Off-the-Shelf Text Search Engines for Large-Scale Video Retrieval Giuseppe Amato Paolo Bolettieri F. Carrara Franca Debole Fabrizio Falchi Claudio Gennaro Lucia Vadicamo Claudio Vairo 20 17 0 06 Aug 2020
Efficient Urdu Caption Generation using Attention based LSTM Inaam Ilahi Hafiz Muhammad Abdullah Zia Ahtazaz Ehsan Rauf Tabassam Armaghan Ahmed VLM 24 2 0 02 Aug 2020
Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval Xun Yang Jianfeng Dong Yixin Cao Xun Wang Meng Wang Tat-Seng Chua 33 137 0 06 Jul 2020
Exploiting Visual Semantic Reasoning for Video-Text Retrieval Zerun Feng Zhimin Zeng Caili Guo Zheng Li 22 34 0 16 Jun 2020
Sentiment Analysis: Automatically Detecting Valence, Emotions, and Other Affectual States from Text Saif M. Mohammad 27 312 0 25 May 2020
Retrieving and Highlighting Action with Spatiotemporal Reference Seito Kasai Yuchi Ishikawa Masaki Hayashi Y. Aoki Kensho Hara Hirokatsu Kataoka 11 0 0 19 May 2020
Unsupervised Multimodal Neural Machine Translation with Pseudo Visual Pivoting Po-Yao (Bernie) Huang Junjie Hu Xiaojun Chang Alexander G. Hauptmann 36 50 0 06 May 2020
Words aren't enough, their order matters: On the Robustness of Grounding Visual Referring Expressions Arjun Reddy Akula Spandana Gella Yaser Al-Onaizan Song-Chun Zhu Siva Reddy ObjD 26 52 0 04 May 2020
MUTATT: Visual-Textual Mutual Guidance for Referring Expression Comprehension Shuai Wang Fan Lyu Wei Feng Song Wang ObjD 21 5 0 18 Mar 2020
IMRAM: Iterative Matching with Recurrent Attention Memory for Cross-Modal Image-Text Retrieval Hui Chen Guiguang Ding Xudong Liu Zijia Lin Ji Liu Jungong Han 22 318 0 08 Mar 2020
Adaptive Offline Quintuplet Loss for Image-Text Matching Tianlang Chen Jiajun Deng Jiebo Luo 181 68 0 07 Mar 2020
Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning Elad Amrani Rami Ben-Ari Daniel Rotman A. Bronstein 22 121 0 06 Mar 2020
Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning Shizhe Chen Yida Zhao Qin Jin Qi Wu 48 310 0 01 Mar 2020
Adversarial Ranking Attack and Defense Mo Zhou Zhenxing Niu Le Wang Qilin Zhang G. Hua 36 38 0 26 Feb 2020
Gaussian Smoothen Semantic Features (GSSF) -- Exploring the Linguistic Aspects of Visual Captioning in Indian Languages (Bengali) Using MSCOCO Framework C. Sur 27 7 0 16 Feb 2020
MRRC: Multiple Role Representation Crossover Interpretation for Image Captioning With R-CNN Feature Distribution Composition (FDC) C. Sur 25 16 0 15 Feb 2020
Show, Recall, and Tell: Image Captioning with Recall Mechanism Li Wang Zechen Bai Yonghua Zhang Hongtao Lu 32 67 0 15 Jan 2020
ScanRefer: 3D Object Localization in RGB-D Scans using Natural Language Dave Zhenyu Chen Angel X. Chang Matthias Nießner 3DPC 47 350 0 18 Dec 2019