v1v2v3 (latest)

A Corpus for Reasoning About Natural Language Grounded in Photographs

1 November 2018

Papers citing "A Corpus for Reasoning About Natural Language Grounded in Photographs"

50 / 419 papers shown

Title
Perspectives and Prospects on Transformer Architecture for Cross-Modal Tasks with Language and Vision Andrew Shin Masato Ishii T. Narihira 142 39 0 06 Mar 2021
Causal Attention for Vision-Language Tasks Xu Yang Hanwang Zhang Guojun Qi Jianfei Cai CML 105 158 0 05 Mar 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 579 1,147 0 17 Feb 2021
ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision Wonjae Kim Bokyung Son Ildoo Kim VLM CLIP 305 1,775 0 05 Feb 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Joey Tianyi Zhou MLLM 424 547 0 04 Feb 2021
Reasoning over Vision and Language: Exploring the Benefits of Supplemental Knowledge Violetta Shevchenko Damien Teney A. Dick Anton Van Den Hengel 91 29 0 15 Jan 2021
Did Aristotle Use a Laptop? A Question Answering Benchmark with Implicit Reasoning Strategies Mor Geva Daniel Khashabi Elad Segal Tushar Khot Dan Roth Jonathan Berant RALM 438 743 0 06 Jan 2021
Transformers in Vision: A Survey Salman Khan Muzammal Naseer Munawar Hayat Syed Waqas Zamir Fahad Shahbaz Khan M. Shah ViT 455 2,570 0 04 Jan 2021
VinVL: Revisiting Visual Representations in Vision-Language Models Pengchuan Zhang Xiujun Li Xiaowei Hu Jianwei Yang Lei Zhang Lijuan Wang Yejin Choi Jianfeng Gao ObjD VLM 353 158 0 02 Jan 2021
Detecting Hateful Memes Using a Multimodal Deep Ensemble Vlad Sandulescu VLM 81 44 0 24 Dec 2020
A Multimodal Framework for the Detection of Hateful Memes Phillip Lippe Nithin Holla Shantanu Chandra S. Rajamanickam Georgios Antoniou Ekaterina Shutova H. Yannakoudakis 81 74 0 23 Dec 2020
A Closer Look at the Robustness of Vision-and-Language Pre-trained Models Linjie Li Zhe Gan Jingjing Liu VLM 101 44 0 15 Dec 2020
MiniVLM: A Smaller and Faster Vision-Language Model Jianfeng Wang Xiaowei Hu Pengchuan Zhang Xiujun Li Lijuan Wang Lefei Zhang Jianfeng Gao Zicheng Liu VLM MLLM 133 60 0 13 Dec 2020
Edited Media Understanding Frames: Reasoning About the Intent and Implications of Visual Misinformation Jeff Da Maxwell Forbes Rowan Zellers Anthony Zheng Jena D. Hwang Antoine Bosselut Yejin Choi DiffM 94 13 0 08 Dec 2020
Multimodal Pretraining Unmasked: A Meta-Analysis and a Unified Framework of Vision-and-Language BERTs Emanuele Bugliarello Ryan Cotterell Naoaki Okazaki Desmond Elliott 109 120 0 30 Nov 2020
Transformation Driven Visual Reasoning Xin Hong Yanyan Lan Liang Pang Jiafeng Guo Xueqi Cheng LRM 92 23 0 26 Nov 2020
Unsupervised Vision-and-Language Pre-training Without Parallel Images and Captions Liunian Harold Li Haoxuan You Zhecan Wang Alireza Zareian Shih-Fu Chang Kai-Wei Chang SSL VLM 108 12 0 24 Oct 2020
Multimodal Research in Vision and Language: A Review of Current and Emerging Trends Shagun Uppal Sarthak Bhagat Devamanyu Hazarika Navonil Majumdar Soujanya Poria Roger Zimmermann Amir Zadeh 103 6 0 19 Oct 2020
Does my multimodal model learn cross-modal interactions? It's harder to tell than you might think! Jack Hessel Lillian Lee 113 76 0 13 Oct 2020
CAPT: Contrastive Pre-Training for Learning Denoised Sequence Representations Fuli Luo Pengcheng Yang Shicheng Li Xuancheng Ren Xu Sun VLM SSL 73 16 0 13 Oct 2020
Learning to Represent Image and Text with Denotation Graph Bowen Zhang Hexiang Hu Vihan Jain Eugene Ie Fei Sha 78 22 0 06 Oct 2020
Understanding tables with intermediate pre-training Julian Martin Eisenschlos Syrine Krichene Thomas Müller LMTD 174 121 0 01 Oct 2020
X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers Jaemin Cho Jiasen Lu Dustin Schwenk Hannaneh Hajishirzi Aniruddha Kembhavi VLM MLLM 102 102 0 23 Sep 2020
Extending Answer Set Programs with Neural Networks Zhun Yang ReLM NAI LRM 133 0 0 22 Sep 2020
Profile Consistency Identification for Open-domain Dialogue Agents Haoyu Song Yan Wang Weinan Zhang Zhengyu Zhao Ting Liu Xiaojiang Liu 139 29 0 21 Sep 2020
MUTANT: A Training Paradigm for Out-of-Distribution Generalization in Visual Question Answering Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang OOD 70 142 0 18 Sep 2020
A Multimodal Memes Classification: A Survey and Open Research Issues Tariq Habib Afridi A. Alam Muhammad Numan Khan Jawad Khan Young-Koo Lee 71 41 0 17 Sep 2020
Contrastive Visual-Linguistic Pretraining Lei Shi Kai Shuang Shijie Geng Peng Su Zhengkai Jiang Peng Gao Zuohui Fu Gerard de Melo Sen Su VLM SSL CLIP 110 29 0 26 Jul 2020
VirTex: Learning Visual Representations from Textual Annotations Karan Desai Justin Johnson SSL VLM 216 437 0 11 Jun 2020
Large-Scale Adversarial Training for Vision-and-Language Representation Learning Zhe Gan Yen-Chun Chen Linjie Li Chen Zhu Yu Cheng Jingjing Liu ObjD VLM 186 501 0 11 Jun 2020
CompGuessWhat?!: A Multi-task Evaluation Framework for Grounded Language Learning Alessandro Suglia Ioannis Konstas Andrea Vanzo E. Bastianelli Desmond Elliott Stella Frank Oliver Lemon 67 16 0 03 Jun 2020
Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models Jize Cao Zhe Gan Yu Cheng Licheng Yu Yen-Chun Chen Jingjing Liu VLM 140 130 0 15 May 2020
Cross-Modality Relevance for Reasoning on Language and Vision Chen Zheng Quan Guo Parisa Kordjamshidi LRM 99 36 0 12 May 2020
The Hateful Memes Challenge: Detecting Hate Speech in Multimodal Memes Douwe Kiela Hamed Firooz Aravind Mohan Vedanuj Goswami Amanpreet Singh Pratik Ringshia Davide Testuggine 115 613 0 10 May 2020
How Can We Accelerate Progress Towards Human-like Linguistic Generalization? Tal Linzen 320 195 0 03 May 2020
Obtaining Faithful Interpretations from Compositional Neural Networks Sanjay Subramanian Ben Bogin Nitish Gupta Tomer Wolfson Sameer Singh Jonathan Berant Matt Gardner 88 42 0 02 May 2020
Benchmarking Multimodal Regex Synthesis with Complex Structures Xi Ye Qiaochu Chen Işıl Dillig Greg Durrett 95 17 0 02 May 2020
Probing Contextual Language Models for Common Ground with Visual Representations Gabriel Ilharco Rowan Zellers Ali Farhadi Hannaneh Hajishirzi 133 14 0 01 May 2020
VD-BERT: A Unified Vision and Dialog Transformer with BERT Yue Wang Shafiq Joty Michael R. Lyu Irwin King Caiming Xiong Guosheng Lin 163 104 0 28 Apr 2020
New Protocols and Negative Results for Textual Entailment Data Collection Samuel R. Bowman J. Palomaki Livio Baldini Soares Emily Pitler 77 7 0 24 Apr 2020
Experience Grounds Language Yonatan Bisk Ari Holtzman Jesse Thomason Jacob Andreas Yoshua Bengio ... Angeliki Lazaridou Jonathan May Aleksandr Nisnevich Nicolas Pinto Joseph P. Turian 134 361 0 21 Apr 2020
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision Damien Teney Ehsan Abbasnejad Anton Van Den Hengel OOD SSL CML 104 119 0 20 Apr 2020
Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks Xiujun Li Xi Yin Chunyuan Li Pengchuan Zhang Xiaowei Hu ... Houdong Hu Li Dong Furu Wei Yejin Choi Jianfeng Gao VLM 304 1,955 0 13 Apr 2020
Context-Aware Group Captioning via Self-Attention and Contrastive Features Zhuowan Li Quan Hung Tran Long Mai Zhe Lin Alan Yuille VLM 81 44 0 07 Apr 2020
Evaluating Models' Local Decision Boundaries via Contrast Sets Matt Gardner Yoav Artzi Victoria Basmova Jonathan Berant Ben Bogin ... Sanjay Subramanian Reut Tsarfaty Eric Wallace Ally Zhang Ben Zhou ELM 140 84 0 06 Apr 2020
Pixel-BERT: Aligning Image Pixels with Text by Deep Multi-Modal Transformers Zhicheng Huang Zhaoyang Zeng Bei Liu Dongmei Fu Jianlong Fu ViT 216 440 0 02 Apr 2020
VIOLIN: A Large-Scale Dataset for Video-and-Language Inference J. Liu Wenhu Chen Yu Cheng Zhe Gan Licheng Yu Yiming Yang Jingjing Liu MLLM VGen 142 70 0 25 Mar 2020
VQA-LOL: Visual Question Answering under the Lens of Logic Tejas Gokhale Pratyay Banerjee Chitta Baral Yezhou Yang CoGe 78 75 0 19 Feb 2020
Adjusting Image Attributes of Localized Regions with Low-level Dialogue Tzu-Hsiang Lin Alexander I. Rudnicky Trung Bui Doo Soon Kim Jean Oh 36 4 0 11 Feb 2020
Break It Down: A Question Understanding Benchmark Tomer Wolfson Mor Geva Ankit Gupta Matt Gardner Yoav Goldberg Daniel Deutch Jonathan Berant 110 188 0 31 Jan 2020