X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers

23 September 2020

Papers citing "X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers"

50 / 63 papers shown

Title
ViConsFormer: Constituting Meaningful Phrases of Scene Texts using Transformer-based Method in Vietnamese Text-based Visual Question Answering Nghia Hieu Nguyen Tho Thanh Quan Ngan Luu-Thuy Nguyen 31 0 0 18 Oct 2024
Advancing Vietnamese Visual Question Answering with Transformer and Convolutional Integration Ngoc Son Nguyen Van Son Nguyen Tung Le ViT 43 0 0 30 Jul 2024
The Use of Multimodal Large Language Models to Detect Objects from Thermal Images: Transportation Applications Huthaifa I. Ashqar Taqwa I. Alhadidi Mohammed Elhenawy Nour O. Khanfar 38 4 0 20 Jun 2024
Human-Centered Automation Carlos Toxtli 13 0 0 24 May 2024
Iteratively Prompting Multimodal LLMs to Reproduce Natural and AI-Generated Images Ali Naseh Katherine Thai Mohit Iyyer Amir Houmansadr 47 5 0 21 Apr 2024
Continual Learning: Forget-free Winning Subnetworks for Video Representations Haeyong Kang Jaehong Yoon Sung Ju Hwang Chang D. Yoo CLL 32 2 0 19 Dec 2023
Mismatch Quest: Visual and Textual Feedback for Image-Text Misalignment Brian Gordon Yonatan Bitton Yonatan Shafir Roopal Garg Xi Chen Dani Lischinski Daniel Cohen-Or Idan Szpektor 44 11 0 05 Dec 2023
Multiscale Superpixel Structured Difference Graph Convolutional Network for VL Representation Siyu Zhang Ye-Ting Chen Fang Wang Yaoru Sun Jun Yang Lizhi Bai SSL 30 0 0 20 Oct 2023
Teaching Text-to-Image Models to Communicate in Dialog Xiaowen Sun Jiazhan Feng Yuxuan Wang Yuxuan Lai Xingyu Shen Dongyan Zhao DiffM 26 1 0 27 Sep 2023
PAT: Parallel Attention Transformer for Visual Question Answering in Vietnamese Nghia Hieu Nguyen Kiet Van Nguyen 11 2 0 17 Jul 2023
Visual Programming for Text-to-Image Generation and Evaluation Jaemin Cho Abhaysinh Zala Joey Tianyi Zhou MLLM 26 50 0 24 May 2023
Inspecting the Geographical Representativeness of Images from Text-to-Image Models Aparna Basu R. Venkatesh Babu Danish Pruthi DiffM 28 39 0 18 May 2023
A Comprehensive Survey on Segment Anything Model for Vision and Beyond Chunhui Zhang Li Liu Yawen Cui Guanjie Huang Weilin Lin Yiqian Yang Yuehong Hu VLM 37 90 0 14 May 2023
OpenViVQA: Task, Dataset, and Multimodal Fusion Models for Visual Question Answering in Vietnamese Nghia Hieu Nguyen Duong T.D. Vo Kiet Van Nguyen Ngan Luu-Thuy Nguyen 24 18 0 07 May 2023
Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation Jaemin Cho Linjie Li Zhengyuan Yang Zhe Gan Lijuan Wang Joey Tianyi Zhou EGVM 11 5 0 13 Apr 2023
TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering Yushi Hu Benlin Liu Jungo Kasai Yizhong Wang Mari Ostendorf Ranjay Krishna Noah A. Smith EGVM 41 208 0 21 Mar 2023
IRGen: Generative Modeling for Image Retrieval Yidan Zhang Ting Zhang Dong Chen Yujing Wang Qi Chen ... Qi Zhang Fan Yang Mao Yang Q. Liao B. Guo 3DV VLM 35 14 0 17 Mar 2023
A Prompt Log Analysis of Text-to-Image Generation Systems Yutong Xie Zhaoying Pan Jing Ma Jie Luo Qiaozhu Mei DiffM 122 40 0 08 Mar 2023
A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT Yihan Cao Siyu Li Yixin Liu Zhiling Yan Yutong Dai Philip S. Yu Lichao Sun 29 507 0 07 Mar 2023
Learning to Agree on Vision Attention for Visual Commonsense Reasoning Zhenyang Li Yangyang Guo Ke-Jyun Wang Fan Liu Liqiang Nie Mohan S. Kankanhalli 40 10 0 04 Feb 2023
Retrieval-Augmented Multimodal Language Modeling Michihiro Yasunaga Armen Aghajanyan Weijia Shi Rich James J. Leskovec Percy Liang M. Lewis Luke Zettlemoyer Wen-tau Yih RALM 16 95 0 22 Nov 2022
A survey on knowledge-enhanced multimodal learning Maria Lymperaiou Giorgos Stamou 41 13 0 19 Nov 2022
Multi-VQG: Generating Engaging Questions for Multiple Images Min-Hsuan Yeh Vicent Chen Ting-Hao Haung Lun-Wei Ku CoGe 18 7 0 14 Nov 2022
DiMBERT: Learning Vision-Language Grounded Representations with Disentangled Multimodal-Attention Fenglin Liu Xian Wu Shen Ge Xuancheng Ren Wei Fan Xu Sun Yuexian Zou VLM 75 12 0 28 Oct 2022
ZITS++: Image Inpainting by Improving the Incremental Transformer on Structural Priors Chenjie Cao Qiaole Dong Yanwei Fu 38 30 0 12 Oct 2022
Progressive Text-to-Image Generation Zhengcong Fei Mingyuan Fan Li Zhu Junshi Huang 89 4 0 05 Oct 2022
DSE-GAN: Dynamic Semantic Evolution Generative Adversarial Network for Text-to-Image Generation Mengqi Huang Zhendong Mao Penghui Wang Quang Wang Yongdong Zhang 36 20 0 03 Sep 2022
NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis Chenfei Wu Jian Liang Xiaowei Hu Zhe Gan Jianfeng Wang Lijuan Wang Zicheng Liu Yuejian Fang Nan Duan VGen 27 72 0 20 Jul 2022
Vision-and-Language Pretraining Thong Nguyen Cong-Duy Nguyen Xiaobao Wu See-Kiong Ng A. Luu VLM CLIP 24 2 0 05 Jul 2022
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation Jiahui Yu Yuanzhong Xu Jing Yu Koh Thang Luong Gunjan Baid ... Zarana Parekh Xin Li Han Zhang Jason Baldridge Yonghui Wu EGVM 107 1,062 0 22 Jun 2022
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 66 527 0 13 Jun 2022
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking Yupan Huang Tengchao Lv Lei Cui Yutong Lu Furu Wei 27 432 0 18 Apr 2022
DU-VLG: Unifying Vision-and-Language Generation via Dual Sequence-to-Sequence Pre-training Luyang Huang Guocheng Niu Jiachen Liu Xinyan Xiao Hua-Hong Wu VLM CoGe 14 7 0 17 Mar 2022
Show Me What and Tell Me How: Video Synthesis via Multimodal Conditioning Ligong Han Jian Ren Hsin-Ying Lee Francesco Barbieri Kyle Olszewski Shervin Minaee Dimitris N. Metaxas Sergey Tulyakov DiffM VGen 30 41 0 04 Mar 2022
Incremental Transformer Structure Enhanced Image Inpainting with Masking Positional Encoding Qiaole Dong Chenjie Cao Yanwei Fu CLL 25 138 0 02 Mar 2022
A Survey of Vision-Language Pre-Trained Models Yifan Du Zikang Liu Junyi Li Wayne Xin Zhao VLM 33 179 0 18 Feb 2022
DALL-Eval: Probing the Reasoning Skills and Social Biases of Text-to-Image Generation Models Jaemin Cho Abhaysinh Zala Joey Tianyi Zhou ViT 145 170 0 08 Feb 2022
ERNIE-ViLG: Unified Generative Pre-training for Bidirectional Vision-Language Generation Han Zhang Weichong Yin Yewei Fang Lanxin Li Boqiang Duan Zhihua Wu Yu Sun Hao Tian Hua-Hong Wu Haifeng Wang 27 58 0 31 Dec 2021
Multimodal Image Synthesis and Editing: The Generative AI Era Fangneng Zhan Yingchen Yu Rongliang Wu Jiahui Zhang Shijian Lu Lingjie Liu Adam Kortylewski Christian Theobalt Eric Xing EGVM 29 48 0 27 Dec 2021
Iconary: A Pictionary-Based Game for Testing Multimodal Communication with Drawings and Text Christopher Clark Jordi Salvador Dustin Schwenk Derrick Bonafilia Mark Yatskar ... Aaron Sarnat Hannaneh Hajishirzi Aniruddha Kembhavi Oren Etzioni Ali Farhadi MLLM 20 3 0 01 Dec 2021
Integrating Visuospatial, Linguistic and Commonsense Structure into Story Visualization A. Maharana Joey Tianyi Zhou 22 57 0 21 Oct 2021
A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images Generation Yupan Huang Bei Liu Jianlong Fu Yutong Lu DiffM 19 5 0 19 Oct 2021
Unifying Multimodal Transformer for Bi-directional Image and Text Generation Yupan Huang Hongwei Xue Bei Liu Yutong Lu 19 57 0 19 Oct 2021
Multimodal Dialogue Response Generation Qingfeng Sun Yujing Wang Can Xu Kai Zheng Yaming Yang Huang Hu Fei Xu Jessica Zhang Xiubo Geng Daxin Jiang 20 43 0 16 Oct 2021
Multi-Tailed, Multi-Headed, Spatial Dynamic Memory refined Text-to-Image Synthesis Amrit Diggavi Seshadri Balaraman Ravindran 16 3 0 15 Oct 2021
CIGLI: Conditional Image Generation from Language & Image Xiaopeng Lu Lynnette Hui Xian Ng Jared Fernandez Hao Zhu DiffM 11 6 0 20 Aug 2021
Demystifying the Draft EU Artificial Intelligence Act Michael Veale Frederik J. Zuiderveen Borgesius 35 334 0 08 Jul 2021
Rethinking the constraints of multimodal fusion: case study in Weakly-Supervised Audio-Visual Video Parsing Jianning Wu Zhuqing Jiang S. Wen Aidong Men Haiying Wang 34 1 0 30 May 2021
M6-UFC: Unifying Multi-Modal Controls for Conditional Image Synthesis via Non-Autoregressive Generative Transformers Zhu Zhang Jianxin Ma Chang Zhou Rui Men Zhikang Li Ming Ding Jie Tang Jingren Zhou Hongxia Yang 25 46 0 29 May 2021
Multi-modal Understanding and Generation for Medical Images and Text via Vision-Language Pre-Training Jong Hak Moon HyunGyung Lee W. Shin Young-Hak Kim E. Choi MedIm 21 151 0 24 May 2021