OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for Video-Grounded Dialog

20 February 2024

Papers citing "OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for Video-Grounded Dialog"

24 / 24 papers shown

Title
SIMMC 2.0: A Task-oriented Dialog Dataset for Immersive Multimodal Conversations Satwik Kottur Seungwhan Moon A. Geramifard Babak Damavandi 75 92 0 18 Apr 2021
Learning Reasoning Paths over Semantic Graphs for Video-grounded Dialogues Hung Le Nancy F. Chen Guosheng Lin 48 14 0 01 Mar 2021
A Fast and Robust BERT-based Dialogue State Tracker for Schema-Guided Dialogue Dataset Vahid Noroozi Yang Zhang Evelina Bakhturina Tomasz Kornuta 34 16 0 27 Aug 2020
Information Leakage in Embedding Models Congzheng Song A. Raghunathan MIACV 57 270 0 31 Mar 2020
PyTorch: An Imperative Style, High-Performance Deep Learning Library Adam Paszke Sam Gross Francisco Massa Adam Lerer James Bradbury ... Sasank Chilamkurthy Benoit Steiner Lu Fang Junjie Bai Soumith Chintala ODL 520 42,559 0 03 Dec 2019
Deep Learning for Symbolic Mathematics Guillaume Lample François Charton 3DGS 105 413 0 02 Dec 2019
CATER: A diagnostic dataset for Compositional Actions and TEmporal Reasoning Rohit Girdhar Deva Ramanan 69 178 0 10 Oct 2019
CLEVRER: CoLlision Events for Video REpresentation and Reasoning Kexin Yi Yuta Saito Yunzhu Li Pushmeet Kohli Jiajun Wu Antonio Torralba J. Tenenbaum NAI 121 473 0 03 Oct 2019
DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter Victor Sanh Lysandre Debut Julien Chaumond Thomas Wolf 234 7,520 0 02 Oct 2019
RoBERTa: A Robustly Optimized BERT Pretraining Approach Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy M. Lewis Luke Zettlemoyer Veselin Stoyanov AIMat 668 24,528 0 26 Jul 2019
Multimodal Transformer Networks for End-to-End Video-Grounded Dialogue Systems Hung Le Doyen Sahoo Nancy F. Chen Guosheng Lin 63 111 0 02 Jul 2019
Visually Grounded Neural Syntax Acquisition Freda Shi Jiayuan Mao Kevin Gimpel Karen Livescu NAI 66 85 0 07 Jun 2019
The Neuro-Symbolic Concept Learner: Interpreting Scenes, Words, and Sentences From Natural Supervision Jiayuan Mao Chuang Gan Pushmeet Kohli J. Tenenbaum Jiajun Wu NAI 138 702 0 26 Apr 2019
CLEVR-Dialog: A Diagnostic Dataset for Multi-Round Reasoning in Visual Dialog Satwik Kottur José M. F. Moura Devi Parikh Dhruv Batra Marcus Rohrbach 77 87 0 07 Mar 2019
MONet: Unsupervised Scene Decomposition and Representation Christopher P. Burgess Loic Matthey Nicholas Watters Rishabh Kabra I. Higgins M. Botvinick Alexander Lerchner OCL 88 528 0 22 Jan 2019
Composing Text and Image for Image Retrieval - An Empirical Odyssey Nam S. Vo Lu Jiang Chen Sun Kevin Patrick Murphy Li Li Li Fei-Fei James Hays CoGe 56 368 0 18 Dec 2018
Neural-Symbolic VQA: Disentangling Reasoning from Vision and Language Understanding Kexin Yi Jiajun Wu Chuang Gan Antonio Torralba Pushmeet Kohli J. Tenenbaum NAI 84 610 0 04 Oct 2018
An End-to-end Approach for Handling Unknown Slot Values in Dialogue State Tracking Puyang Xu Qi Hu 69 125 0 03 May 2018
Mask R-CNN Kaiming He Georgia Gkioxari Piotr Dollár Ross B. Girshick ObjD 352 27,230 0 20 Mar 2017
CLEVR: A Diagnostic Dataset for Compositional Language and Elementary Visual Reasoning Justin Johnson B. Hariharan Laurens van der Maaten Li Fei-Fei C. L. Zitnick Ross B. Girshick CoGe 307 2,386 0 20 Dec 2016
Visual Dialog Abhishek Das Satwik Kottur Khushi Gupta Avi Singh Deshraj Yadav José M. F. Moura Devi Parikh Dhruv Batra 144 1,001 0 26 Nov 2016
Neural Belief Tracker: Data-Driven Dialogue State Tracking N. Mrksic Diarmuid Ó Séaghdha Tsung-Hsien Wen Blaise Thomson S. Young 90 483 0 12 Jun 2016
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 211 5,497 0 03 May 2015
Deep Visual-Semantic Alignments for Generating Image Descriptions A. Karpathy Li Fei-Fei 140 5,590 0 07 Dec 2014