Retrieval-Augmented Multimodal Language Modeling

22 November 2022

Weijia Shi

Luke Zettlemoyer

Papers citing "Retrieval-Augmented Multimodal Language Modeling"

30 / 80 papers shown

Title
Sieve: Multimodal Dataset Pruning Using Image Captioning Models Anas Mahmoud Mostafa Elhoushi Amro Abbas Yu Yang Newsha Ardalani Hugh Leather Ari S. Morcos VLM CLIP 40 20 0 03 Oct 2023
Large Language Models as Analogical Reasoners Michihiro Yasunaga Xinyun Chen Yujia Li Panupong Pasupat J. Leskovec Percy Liang Ed H. Chi Denny Zhou ReLM LRM 29 77 0 03 Oct 2023
Jointly Training Large Autoregressive Multimodal Models Emanuele Aiello L. Yu Yixin Nie Armen Aghajanyan Barlas Oğuz 19 29 0 27 Sep 2023
InternLM-XComposer: A Vision-Language Large Model for Advanced Text-image Comprehension and Composition Pan Zhang Xiaoyi Wang Bin Wang Yuhang Cao Chao Xu ... Conghui He Xingcheng Zhang Yu Qiao Da Lin Jiaqi Wang MLLM 80 225 0 26 Sep 2023
Generating Natural Language Queries for More Effective Systematic Review Screening Prioritisation Shuai Wang Harrisen Scells Martin Potthast Bevan Koopman Guido Zuccon 27 10 0 11 Sep 2023
Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning L. Yu Bowen Shi Ramakanth Pasunuru Benjamin Muller O. Yu. Golovneva ... Yaniv Taigman Maryam Fazel-Zarandi Asli Celikyilmaz Luke Zettlemoyer Armen Aghajanyan MLLM 38 135 0 05 Sep 2023
Imaginations of WALL-E : Reconstructing Experiences with an Imagination-Inspired Module for Advanced AI Systems Zeinab Taghavi S. Gooran Seyed Arshan Dalili Hamidreza Amirzadeh Mohammad Jalal Nematbakhsh Hossein Sameti 23 2 0 20 Aug 2023
Med-Flamingo: a Multimodal Medical Few-shot Learner Michael Moor Qian Huang Shirley Wu Michihiro Yasunaga C. Zakka Yashodhara Dalmia E. Reis Pranav Rajpurkar J. Leskovec LM&MA MedIm 27 233 0 27 Jul 2023
Benchmarking and Analyzing Generative Data for Visual Recognition Bo-wen Li Haotian Liu Liangyu Chen Yong Jae Lee C. Li Ziwei Liu EGVM VLM 18 4 0 25 Jul 2023
Linear Alignment of Vision-language Models for Image Captioning Fabian Paischer M. Hofmarcher Sepp Hochreiter Thomas Adler CLIP VLM 50 0 0 10 Jul 2023
Reimagining Retrieval Augmented Language Models for Answering Queries W. Tan Yuliang Li Pedro Rodriguez Rich James Xi Lin A. Halevy Scott Yih KELM LRM 37 9 0 01 Jun 2023
GripRank: Bridging the Gap between Retrieval and Generation via the Generative Knowledge Improved Passage Ranking Jiaqi Bai Hongcheng Guo Jiaheng Liu Jian Yang Xinnian Liang Zhao Yan Zhoujun Li RALM 29 14 0 29 May 2023
Generating Images with Multimodal Language Models Jing Yu Koh Daniel Fried Ruslan Salakhutdinov MLLM 28 241 0 26 May 2023
MultiFusion: Fusing Pre-Trained Models for Multi-Lingual, Multi-Modal Image Generation Marco Bellagente Manuel Brack H. Teufel Felix Friedrich Bjorn Deiseroth ... Koen Oostermeijer Andres Felipe Cruz Salinas P. Schramowski Kristian Kersting Samuel Weinbach 39 16 0 24 May 2023
Trusting Your Evidence: Hallucinate Less with Context-aware Decoding Weijia Shi Xiaochuang Han M. Lewis Yulia Tsvetkov Luke Zettlemoyer Scott Yih HILM 24 189 0 24 May 2023
Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory Xin Cheng Di Luo Xiuying Chen Lemao Liu Dongyan Zhao Rui Yan RALM 153 91 0 03 May 2023
Unstructured and structured data: Can we have the best of both worlds with large language models? W. Tan 21 1 0 25 Apr 2023
Retrieving Multimodal Information for Augmented Generation: A Survey Ruochen Zhao Hailin Chen Weishi Wang Fangkai Jiao Do Xuan Long ... Bosheng Ding Xiaobao Guo Minzhi Li Xingxuan Li Chenyu You 31 82 0 20 Mar 2023
The Life Cycle of Knowledge in Big Language Models: A Survey Boxi Cao Hongyu Lin Xianpei Han Le Sun KELM 33 27 0 14 Mar 2023
Language Is Not All You Need: Aligning Perception with Language Models Shaohan Huang Li Dong Wenhui Wang Y. Hao Saksham Singhal ... Johan Bjorck Vishrav Chaudhary Subhojit Som Xia Song Furu Wei VLM LRM MLLM 32 535 0 27 Feb 2023
$k$ NN-Adapter: Efficient Domain Adaptation for Black-Box Language Models Yangsibo Huang Daogao Liu Zexuan Zhong Weijia Shi Y. Lee RALM ALM 29 14 0 21 Feb 2023
Re-ViLM: Retrieval-Augmented Visual Language Model for Zero and Few-Shot Image Captioning Zhuolin Yang Ming-Yu Liu Zihan Liu V. Korthikanti Weili Nie ... Yuke Zhu M. Shoeybi Bryan Catanzaro Chaowei Xiao Anima Anandkumar VLM RALM 34 39 0 09 Feb 2023
Multimodal Chain-of-Thought Reasoning in Language Models Zhuosheng Zhang Aston Zhang Mu Li Hai Zhao George Karypis Alexander J. Smola LRM 30 409 0 02 Feb 2023
REPLUG: Retrieval-Augmented Black-Box Language Models Weijia Shi Sewon Min Michihiro Yasunaga Minjoon Seo Rich James M. Lewis Luke Zettlemoyer Wen-tau Yih RALM VLM KELM 83 580 0 30 Jan 2023
Learning Customized Visual Models with Retrieval-Augmented Knowledge Haotian Liu Kilho Son Jianwei Yang Ce Liu Jianfeng Gao Yong Jae Lee Chunyuan Li VLM 40 53 0 17 Jan 2023
Scaling Laws for Generative Mixed-Modal Language Models Armen Aghajanyan L. Yu Alexis Conneau Wei-Ning Hsu Karen Hambardzumyan Susan Zhang Stephen Roller Naman Goyal Omer Levy Luke Zettlemoyer MoE VLM 19 104 0 10 Jan 2023
Do DALL-E and Flamingo Understand Each Other? Hang Li Jindong Gu Rajat Koner Sahand Sharifzadeh Volker Tresp MLLM 21 12 0 23 Dec 2022
Re-Imagen: Retrieval-Augmented Text-to-Image Generator Wenhu Chen Hexiang Hu Chitwan Saharia William W. Cohen VLM 128 161 0 29 Sep 2022
VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering Yanan Wang Michihiro Yasunaga Hongyu Ren Shinya Wada J. Leskovec 29 17 0 23 May 2022
Zero-Shot Text-to-Image Generation Aditya A. Ramesh Mikhail Pavlov Gabriel Goh Scott Gray Chelsea Voss Alec Radford Mark Chen Ilya Sutskever VLM 255 4,796 0 24 Feb 2021