NLX-GPT: A Model for Natural Language Explanations in Vision and
Vision-Language Tasks

NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks

9 March 2022

Tanmoy Mukherjee

Nikos Deligiannis

Papers citing "NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks"

16 / 16 papers shown

Title
Learning to Correction: Explainable Feedback Generation for Visual Commonsense Reasoning Distractor Jiali Chen Xusen Hei Yuqi Xue Yuancheng Wei Jiayuan Xie Yi Cai Qing Li MLLM LRM 83 4 0 08 Dec 2024
When Backdoors Speak: Understanding LLM Backdoor Attacks Through Model-Generated Explanations Huaizhi Ge Yiming Li Qifan Wang Yongfeng Zhang Ruixiang Tang AAML SILM 86 0 0 19 Nov 2024
Faithful and Plausible Natural Language Explanations for Image Classification: A Pipeline Approach Adam Wojciechowski Mateusz Lango Ondrej Dusek FAtt 51 0 0 30 Jul 2024
Zero-shot Translation of Attention Patterns in VQA Models to Natural Language Leonard Salewski A. Sophia Koepke Hendrik P. A. Lensch Zeynep Akata 34 2 0 08 Nov 2023
Beyond Task Performance: Evaluating and Reducing the Flaws of Large Multimodal Models with In-Context Learning Mustafa Shukor Alexandre Ramé Corentin Dancette Matthieu Cord LRM MLLM 46 20 0 01 Oct 2023
DeViL: Decoding Vision features into Language Meghal Dani Isabel Rio-Torto Stephan Alaniz Zeynep Akata VLM 42 7 0 04 Sep 2023
Knowledge-Based Counterfactual Queries for Visual Question Answering Theodoti Stoikou Maria Lymperaiou Giorgos Stamou AAML 26 1 0 05 Mar 2023
Visual Classification via Description from Large Language Models Sachit Menon Carl Vondrick VLM 38 291 0 13 Oct 2022
Chunk-aware Alignment and Lexical Constraint for Visual Entailment with Natural Language Explanations Qian Yang Yunxin Li Baotian Hu Lin Ma Yuxin Ding Min Zhang 27 10 0 23 Jul 2022
Language Models are General-Purpose Interfaces Y. Hao Haoyu Song Li Dong Shaohan Huang Zewen Chi Wenhui Wang Shuming Ma Furu Wei MLLM 30 95 0 13 Jun 2022
How Much Can CLIP Benefit Vision-and-Language Tasks? Sheng Shen Liunian Harold Li Hao Tan Joey Tianyi Zhou Anna Rohrbach Kai-Wei Chang Z. Yao Kurt Keutzer CLIP VLM MLLM 202 405 0 13 Jul 2021
Unifying Vision-and-Language Tasks via Text Generation Jaemin Cho Jie Lei Hao Tan Joey Tianyi Zhou MLLM 277 525 0 04 Feb 2021
Show, Edit and Tell: A Framework for Editing Image Captions Fawaz Sammani Luke Melas-Kyriazi KELM DiffM 48 59 0 06 Mar 2020
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
e-SNLI: Natural Language Inference with Natural Language Explanations Oana-Maria Camburu Tim Rocktaschel Thomas Lukasiewicz Phil Blunsom LRM 266 622 0 04 Dec 2018
Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding Akira Fukui Dong Huk Park Daylen Yang Anna Rohrbach Trevor Darrell Marcus Rohrbach 167 1,464 0 06 Jun 2016