Zero-Shot Composed Image Retrieval with Textual Inversion

27 March 2023

Papers citing "Zero-Shot Composed Image Retrieval with Textual Inversion"

39 / 39 papers shown

Title
DetailFusion: A Dual-branch Framework with Detail Enhancement for Composed Image Retrieval Yuxin Yang Yinan Zhou Yuxin Chen Ziqi Zhang Zongyang Ma ... Bing Li Lin Song Jun Gao Peng Li Weiming Hu 157 0 0 23 May 2025
Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval Haoqiang Lin Haokun Wen Xuemeng Song Meng Liu Yupeng Hu Liqiang Nie 145 15 0 25 Mar 2025
Missing Target-Relevant Information Prediction with World Model for Accurate Zero-Shot Composed Image Retrieval Yuanmin Tang Jing Yu Keke Gai Jiamin Zhuang Gang Xiong Gaopeng Gou Qi Wu VGen 111 2 0 21 Mar 2025
ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval Guanqi Zhan Yuanpei Liu Kai Han Weidi Xie Andrew Zisserman VLM 417 0 0 21 Feb 2025
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation Mohammad Mahdi Abootorabi Amirhosein Zobeiri Mahdi Dehghani Mohammadali Mohammadkhani Bardia Mohammadi Omid Ghahroodi M. Baghshah Ehsaneddin Asgari RALM 233 7 0 12 Feb 2025
Cross the Gap: Exposing the Intra-modal Misalignment in CLIP via Modality Inversion Marco Mistretta Alberto Baldrati Lorenzo Agnolucci Marco Bertini Andrew D. Bagdanov CLIP VLM 145 4 0 06 Feb 2025
MM-Embed: Universal Multimodal Retrieval with Multimodal LLMs Sheng-Chieh Lin Chankyu Lee Mohammad Shoeybi Jimmy J. Lin Bryan Catanzaro Ming-Yu Liu 202 17 0 04 Nov 2024
Pretrain like Your Inference: Masked Tuning Improves Zero-Shot Composed Image Retrieval Junyang Chen Hanjiang Lai VLM 74 15 0 13 Nov 2023
Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval Kuniaki Saito Kihyuk Sohn Xiang Zhang Chun-Liang Li Chen-Yu Lee Kate Saenko Tomas Pfister 70 113 0 06 Feb 2023
Multi-Concept Customization of Text-to-Image Diffusion Nupur Kumari Bin Zhang Richard Y. Zhang Eli Shechtman Jun-Yan Zhu 122 866 0 08 Dec 2022
Multiresolution Textual Inversion Giannis Daras A. Dimakis 59 34 0 30 Nov 2022
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation Nataniel Ruiz Yuanzhen Li Varun Jampani Yael Pritch Michael Rubinstein Kfir Aberman 241 2,832 0 25 Aug 2022
An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion Rinon Gal Yuval Alaluf Yuval Atzmon Or Patashnik Amit H. Bermano Gal Chechik Daniel Cohen-Or 107 1,862 0 02 Aug 2022
Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding Chitwan Saharia William Chan Saurabh Saxena Lala Li Jay Whang ... Raphael Gontijo-Lopes Tim Salimans Jonathan Ho David J Fleet Mohammad Norouzi VLM 352 5,978 0 23 May 2022
CoCa: Contrastive Captioners are Image-Text Foundation Models Jiahui Yu Zirui Wang Vijay Vasudevan Legg Yeung Mojtaba Seyedhosseini Yonghui Wu VLM CLIP OffRL 131 1,293 0 04 May 2022
"This is my unicorn, Fluffy": Personalizing frozen vision-language representations Niv Cohen Rinon Gal E. Meirom Gal Chechik Yuval Atzmon VLM MLLM 72 85 0 04 Apr 2022
ARTEMIS: Attention-based Retrieval with Text-Explicit Matching and Implicit Similarity Ginger Delmas Rafael Sampaio de Rezende G. Csurka Diane Larlus VLM 43 101 0 15 Mar 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 353 15,373 0 20 Dec 2021
Scaling Up Vision-Language Pre-training for Image Captioning Xiaowei Hu Zhe Gan Jianfeng Wang Zhengyuan Yang Zicheng Liu Yumao Lu Lijuan Wang MLLM VLM 112 248 0 24 Nov 2021
Image Retrieval on Real-life Images with Pre-trained Vision-and-Language Models Zheyuan Liu Cristian Rodriguez-Opazo Damien Teney Stephen Gould VLM 53 200 0 09 Aug 2021
RTIC: Residual Learning for Text and Image Composition using Graph Convolutional Network Minchul Shin Yoonjae Cho ByungSoo Ko Geonmo Gu 35 44 0 07 Apr 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 812 29,167 0 26 Feb 2021
Designing an Encoder for StyleGAN Image Manipulation Omer Tov Yuval Alaluf Yotam Nitzan Or Patashnik Daniel Cohen-Or 257 783 0 04 Feb 2021
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 662 41,736 0 28 May 2020
In-Domain GAN Inversion for Real Image Editing Jiapeng Zhu Yujun Shen Deli Zhao Bolei Zhou DiffM 64 641 0 31 Mar 2020
A Simple Framework for Contrastive Learning of Visual Representations Ting-Li Chen Simon Kornblith Mohammad Norouzi Geoffrey E. Hinton SSL 327 18,721 0 13 Feb 2020
Meshed-Memory Transformer for Image Captioning Marcella Cornia Matteo Stefanini Lorenzo Baraldi Rita Cucchiara 59 874 0 17 Dec 2019
Neural Naturalist: Generating Fine-Grained Image Comparisons Maxwell Forbes Christine Kaeser-Chen Piyush Sharma Serge J. Belongie VLM 87 57 0 09 Sep 2019
Composing Text and Image for Image Retrieval - An Empirical Odyssey Nam S. Vo Lu Jiang Chen Sun Kevin Patrick Murphy Li Li Li Fei-Fei James Hays CoGe 52 363 0 18 Dec 2018
Dialog-based Interactive Image Retrieval Xiaoxiao Guo Hui Wu Yu Cheng Steven J. Rennie Gerald Tesauro Rogerio Feris 81 203 0 01 May 2018
Mixed Precision Training Paulius Micikevicius Sharan Narang Jonah Alben G. Diamos Erich Elsen ... Boris Ginsburg Michael Houston Oleksii Kuchaiev Ganesh Venkatesh Hao Wu 149 1,792 0 10 Oct 2017
Automatic Spatially-aware Fashion Concept Discovery Xintong Han Zuxuan Wu Phoenix X. Huang Xiao Zhang Menglong Zhu Yuan Li Yang Zhao L. Davis 73 270 0 03 Aug 2017
Gaussian Error Linear Units (GELUs) Dan Hendrycks Kevin Gimpel 165 4,994 0 27 Jun 2016
Deep Residual Learning for Image Recognition Kaiming He Xinming Zhang Shaoqing Ren Jian Sun MedIm 1.9K 193,426 0 10 Dec 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 174 5,452 0 03 May 2015
Distilling the Knowledge in a Neural Network Geoffrey E. Hinton Oriol Vinyals J. Dean FedML 312 19,609 0 09 Mar 2015
FitNets: Hints for Thin Deep Nets Adriana Romero Nicolas Ballas Samira Ebrahimi Kahou Antoine Chassang C. Gatta Yoshua Bengio FedML 278 3,870 0 19 Dec 2014
ImageNet Large Scale Visual Recognition Challenge Olga Russakovsky Jia Deng Hao Su J. Krause S. Satheesh ... A. Karpathy A. Khosla Michael S. Bernstein Alexander C. Berg Li Fei-Fei VLM ObjD 1.5K 39,472 0 01 Sep 2014
Microsoft COCO: Common Objects in Context Nayeon Lee Michael Maire Serge J. Belongie Lubomir Bourdev Ross B. Girshick James Hays Pietro Perona Deva Ramanan C. L. Zitnick Piotr Dollár ObjD 373 43,524 0 01 May 2014