Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities

22 February 2023

Papers citing "Open-domain Visual Entity Recognition: Towards Recognizing Millions of Wikipedia Entities"

23 / 23 papers shown

Title
GIF: Generative Inspiration for Face Recognition at Scale Saeed Ebrahimi Sahar Rahimi Ali Dabouei Srinjoy Das Jeremy M. Dawson Nasser M. Nasrabadi CVBM 150 0 0 05 May 2025
Poisoned-MRAG: Knowledge Poisoning Attacks to Multimodal Retrieval Augmented Generation Yinuo Liu Zenghui Yuan Guiyao Tie Jiawen Shi Lichao Sun Lichao Sun Neil Zhenqiang Gong 43 1 0 08 Mar 2025
Fine-Grained Retrieval-Augmented Generation for Visual Question Answering Zhengxuan Zhang Yin Wu Yuyu Luo Nan Tang 38 0 0 28 Feb 2025
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge Yuntao Du Kailin Jiang Zhi Gao Chenrui Shi Zilong Zheng Siyuan Qi Qing Li KELM 70 2 0 27 Feb 2025
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks Ziyan Jiang Rui Meng Xinyi Yang Semih Yavuz Yingbo Zhou Wenhu Chen MLLM VLM 51 19 0 03 Jan 2025
GME: Improving Universal Multimodal Retrieval by Multimodal LLMs Xin Zhang Yanzhao Zhang Wen Xie Mingxin Li Ziqi Dai Dingkun Long Pengjun Xie Meishan Zhang Wenjie Li M. Zhang 116 7 0 22 Dec 2024
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs Sheng-Chieh Lin Chankyu Lee M. Shoeybi Jimmy J. Lin Bryan Catanzaro Ming-Yu Liu 65 10 0 04 Nov 2024
VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents S. Yu C. Tang Bokai Xu Junbo Cui Junhao Ran ... Zhenghao Liu Shuo Wang Xu Han Zhiyuan Liu Maosong Sun VLM 39 23 0 14 Oct 2024
MATE: Meet At The Embedding -- Connecting Images with Long Texts Young Kyun Jang Junmo Kang Yong Jae Lee Donghyun Kim VLM 41 5 0 26 Jun 2024
MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge Editing Jiaqi Li Miaozeng Du Chuanyi Zhang Yongrui Chen Nan Hu Guilin Qi Haiyun Jiang Siyuan Cheng Bo Tian 20 14 0 18 Feb 2024
Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization Yuhang Zang Hanlin Goh Josh Susskind Chen Huang VLM 34 12 0 29 Jan 2024
Instruct-Imagen: Image Generation with Multi-modal Instruction Hexiang Hu Kelvin C. K. Chan Yu-Chuan Su Wenhu Chen Yandong Li ... Xue Ben Boqing Gong William W. Cohen Ming-Wei Chang Xuhui Jia MLLM 46 43 0 03 Jan 2024
UniIR: Training and Benchmarking Universal Multimodal Information Retrievers Cong Wei Yang Chen Haonan Chen Hexiang Hu Ge Zhang Jie Fu Alan Ritter Wenhu Chen 42 51 0 28 Nov 2023
PaLI-X: On Scaling up a Multilingual Vision and Language Model Xi Chen Josip Djolonga Piotr Padlewski Basil Mustafa Soravit Changpinyo ... Mojtaba Seyedhosseini A. Angelova Xiaohua Zhai N. Houlsby Radu Soricut VLM 53 187 0 29 May 2023
AMELI: Enhancing Multimodal Entity Linking with Fine-Grained Attributes Barry Menglong Yao Yu Chen Qifan Wang Sijia Wang Minqian Liu Zhiyang Xu Licheng Yu Lifu Huang 18 7 0 24 May 2023
Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? Yang Chen Hexiang Hu Yi Luan Haitian Sun Soravit Changpinyo Alan Ritter Ming-Wei Chang 48 80 0 23 Feb 2023
ImageNet-21K Pretraining for the Masses T. Ridnik Emanuel Ben-Baruch Asaf Noy Lihi Zelnik-Manor SSeg VLM CLIP 181 687 0 22 Apr 2021
Revisiting Document Representations for Large-Scale Zero-Shot Learning Jihyung Kil Wei-Lun Chao VLM 40 10 0 21 Apr 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 298 3,700 0 11 Feb 2021
Rapid Learning or Feature Reuse? Towards Understanding the Effectiveness of MAML Aniruddh Raghu M. Raghu Samy Bengio Oriol Vinyals 177 639 0 19 Sep 2019
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,959 0 20 Apr 2018
Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks Chelsea Finn Pieter Abbeel Sergey Levine OOD 332 11,684 0 09 Mar 2017
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 296 39,198 0 01 Sep 2014