Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval

6 February 2023

Kuniaki Saito

Kihyuk Sohn

Xiang Zhang

Chun-Liang Li

Chen-Yu Lee

Kate Saenko

Tomas Pfister

ArXiv PDF HTML

Papers citing "Pic2Word: Mapping Pictures to Words for Zero-shot Composed Image Retrieval"

50 / 78 papers shown

Title
From Mapping to Composing: A Two-Stage Framework for Zero-shot Composed Image Retrieval Yabing Wang Zhuotao Tian Qingpei Guo Zheng Qin Sanping Zhou Ming Yang Le Wang 117 0 0 25 Apr 2025
TMCIR: Token Merge Benefits Composed Image Retrieval Chaoyang Wang Zeyu Zhang Long Teng Zijun Li Shichao Kan 31 0 0 15 Apr 2025
FocalLens: Instruction Tuning Enables Zero-Shot Conditional Image Representations Cheng-Yu Hsieh Pavan Kumar Anasosalu Vasu Fartash Faghri Raviteja Vemulapalli Chun-Liang Li Ranjay Krishna Oncel Tuzel Hadi Pouransari VLM 162 0 0 11 Apr 2025
Enhancing Compositional Reasoning in Vision-Language Models with Synthetic Preference Data Samarth Mishra Kate Saenko Venkatesh Saligrama CoGe LRM 37 0 0 07 Apr 2025
IDMR: Towards Instance-Driven Precise Visual Correspondence in Multimodal Retrieval Bangwei Liu Yicheng Bao Shaohui Lin Xuhong Wang Xin Tan Yixuan Wang Yuan Xie Chaochao Lu 84 0 0 01 Apr 2025
Scaling Prompt Instructed Zero Shot Composed Image Retrieval with Image-Only Data Yiqun Duan Sameera Ramasinghe Stephen Gould Ajanthan Thalaiyasingam 43 0 0 01 Apr 2025
AutoComPose: Automatic Generation of Pose Transition Descriptions for Composed Pose Retrieval Using Multimodal LLMs Yi-Ting Shen Sungmin Eum Doheon Lee Rohit Shete Chiao-Yi Wang H. Kwon Shuvra S. Bhattacharyya 37 0 0 28 Mar 2025
Fine-grained Textual Inversion Network for Zero-Shot Composed Image Retrieval Haoqiang Lin Haokun Wen Xuemeng Song Meng Liu Yupeng Hu Liqiang Nie 54 14 0 25 Mar 2025
Compositional Caching for Training-free Open-vocabulary Attribute Detection Marco Garosi Alessandro Conti Gaowen Liu Elisa Ricci Massimiliano Mancini ObjD VLM 55 0 0 24 Mar 2025
good4cir: Generating Detailed Synthetic Captions for Composed Image Retrieval Pranavi Kolouju Eric Xing Robert Pless Nathan Jacobs Abby Stylianou 3DV 58 0 0 22 Mar 2025
Missing Target-Relevant Information Prediction with World Model for Accurate Zero-Shot Composed Image Retrieval Yuanmin Tang Jing Yu Keke Gai Jiamin Zhuang Gang Xiong Gaopeng Gou Qi Wu VGen 51 1 0 21 Mar 2025
Not Only Text: Exploring Compositionality of Visual Representations in Vision-Language Models Davide Berasi Matteo Farina Massimiliano Mancini Elisa Ricci Nicola Strisciuglio CoGe 68 0 0 21 Mar 2025
ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning Pengfei Luo Jingbo Zhou Tong Xu Yuan Xia Linli Xu Enhong Chen LRM 67 0 0 13 Mar 2025
Data-Efficient Generalization for Zero-shot Composed Image Retrieval Zining Chen Zhicheng Zhao Fei Su Xiaoqin Zhang Shijian Lu VLM 45 0 0 07 Mar 2025
Composed Multi-modal Retrieval: A Survey of Approaches and Applications Kun Zhang Jingyu Li Z. Li Jingjing Zhang 38 0 0 03 Mar 2025
Joint Fusion and Encoding: Advancing Multimodal Retrieval from the Ground Up Lang Huang Qiyu Wu Zhongtao Miao T. Yamasaki 147 0 0 27 Feb 2025
A Comprehensive Survey on Composed Image Retrieval Xuemeng Song Haoqiang Lin Haokun Wen Bohan Hou Mingzhu Xu Liqiang Nie 53 1 0 19 Feb 2025
Ask in Any Modality: A Comprehensive Survey on Multimodal Retrieval-Augmented Generation Mohammad Mahdi Abootorabi Amirhosein Zobeiri Mahdi Dehghani Mohammadali Mohammadkhani Bardia Mohammadi Omid Ghahroodi M. Baghshah Ehsaneddin Asgari RALM 105 4 0 12 Feb 2025
Triplet Synthesis For Enhancing Composed Image Retrieval via Counterfactual Image Generation Kenta Uesugi Naoki Saito Keisuke Maeda Takahiro Ogawa Miki Haseyama 41 0 0 22 Jan 2025
Rethinking Knowledge in Distillation: An In-context Sample Retrieval Perspective Jinjing Zhu Songze Li Lin Wang 47 0 0 13 Jan 2025
SCOT: Self-Supervised Contrastive Pretraining For Zero-Shot Compositional Retrieval Bhavin Jawade JOÃO-BRUNO Soares K. Thadani D. Mohan Amir Erfan Eshratifar Benjamin Culpepper Paloma de Juan S. Setlur V. Govindaraju 43 0 0 12 Jan 2025
Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval Yuanmin Tang Xiaoting Qin Jingyang Zhang Jing Yu Gaopeng Gou Gang Xiong Qingwei Ling Saravan Rajmohan Dongmei Zhang Qi Wu LRM 66 1 0 15 Dec 2024
Composed Image Retrieval for Training-Free Domain Conversion Nikos Efthymiadis Bill Psomas Zakaria Laskar Konstantinos Karantzalos Yannis Avrithis Ondřej Chum Giorgos Tolias 76 0 0 04 Dec 2024
RELOCATE: A Simple Training-Free Baseline for Visual Query Localization Using Region-Based Representations Savya Khosla S. Vallecorsa A. Schwing Derek Hoiem 59 0 0 02 Dec 2024
Imagine and Seek: Improving Composed Image Retrieval with an Imagined Proxy Y. Li Fan Ma Yi Yang 140 2 0 24 Nov 2024
MoTaDual: Modality-Task Dual Alignment for Enhanced Zero-shot Composed Image Retrieval Haiwen Li Fei Su Zhicheng Zhao 31 0 0 31 Oct 2024
ChatSearch: a Dataset and a Generative Retrieval Model for General Conversational Image Retrieval Zijia Zhao Longteng Guo Tongtian Yue Erdong Hu Shuai Shao Zehuan Yuan Hua Huang Jiaheng Liu 26 1 0 24 Oct 2024
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification Qianru Han Xinwei He Zhi Liu Sannyuya Liu Ying Zhang Jinhai Xiang 16 1 0 12 Oct 2024
EUFCC-CIR: a Composed Image Retrieval Dataset for GLAM Collections Francesc Net Lluís Gómez 26 0 0 02 Oct 2024
NeIn: Telling What You Don't Want Nhat-Tan Bui Dinh-Hieu Hoang Quoc-Huy Trinh Minh-Triet Tran Truong Nguyen Susan Gauch 43 2 0 09 Sep 2024
BRIDGE: Bridging Gaps in Image Captioning Evaluation with Stronger Visual Cues Sara Sarto Marcella Cornia Lorenzo Baraldi Rita Cucchiara 41 6 0 29 Jul 2024
EgoCVR: An Egocentric Benchmark for Fine-Grained Composed Video Retrieval Thomas Hummel Shyamgopal Karthik Mariana-Iuliana Georgescu Zeynep Akata EgoV 34 4 0 23 Jul 2024
Aligning Sight and Sound: Advanced Sound Source Localization Through Audio-Visual Alignment Arda Senocak H. Ryu Junsik Kim Tae-Hyun Oh Hanspeter Pfister Joon Son Chung 38 3 0 18 Jul 2024
E5-V: Universal Embeddings with Multimodal Large Language Models Ting Jiang Minghui Song Zihan Zhang Haizhen Huang Weiwei Deng Feng Sun Qi Zhang Deqing Wang Fuzhen Zhuang VLM 33 21 0 17 Jul 2024
Pseudo-triplet Guided Few-shot Composed Image Retrieval Bohan Hou Haoqiang Lin Haokun Wen Meng Liu Xuemeng Song 39 4 0 08 Jul 2024
HyCIR: Boosting Zero-Shot Composed Image Retrieval with Synthetic Labels Yingying Jiang Hanchao Jia Xiaobing Wang Peng Hao VLM 32 4 0 08 Jul 2024
Zero-shot Composed Image Retrieval Considering Query-target Relationship Leveraging Masked Image-text Pairs Huaying Zhang Rintaro Yanagi Ren Togo Takahiro Ogawa Miki Haseyama 30 5 0 27 Jun 2024
They're All Doctors: Synthesizing Diverse Counterfactuals to Mitigate Associative Bias Salma Abdel Magid Jui-Hsien Wang Kushal Kafle Hanspeter Pfister 44 1 0 17 Jun 2024
Textual Inversion and Self-supervised Refinement for Radiology Report Generation Yuanjiang Luo Hongxiang Li Xuan Wu Meng Cao Xiaoshuang Huang Zhihong Zhu Peixi Liao Hu Chen Yi Zhang MedIm 30 2 0 31 May 2024
Composed Image Retrieval for Remote Sensing Bill Psomas Ioannis Kakogeorgiou Nikos Efthymiadis Giorgos Tolias Ondřej Chum Yannis Avrithis Konstantinos Karantzalos 48 4 0 24 May 2024
iSEARLE: Improving Textual Inversion for Zero-Shot Composed Image Retrieval Lorenzo Agnolucci Alberto Baldrati Marco Bertini A. Bimbo 38 10 0 05 May 2024
Spherical Linear Interpolation and Text-Anchoring for Zero-shot Composed Image Retrieval Young Kyun Jang Dat Huynh Ashish Shah Wen-Kai Chen Ser-Nam Lim 45 15 0 01 May 2024
Revisiting Relevance Feedback for CLIP-based Interactive Image Retrieval Ryoya Nara Yu-Chieh Lin Yuji Nozawa Youyang Ng Goh Itoh Osamu Torii Yusuke Matsui HAI 29 2 0 25 Apr 2024
Leveraging Large Language Models for Multimodal Search Oriol Barbany Michael Huang Xinliang Zhu Arnab Dhua 31 9 0 24 Apr 2024
Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval Young Kyun Jang Donghyun Kim Zihang Meng Dat Huynh Ser-Nam Lim 43 11 0 23 Apr 2024
Improving Composed Image Retrieval via Contrastive Learning with Scaling Positives and Negatives Zhangchi Feng Richong Zhang Zhijie Nie 41 7 0 17 Apr 2024
MagicLens: Self-Supervised Image Retrieval with Open-Ended Instructions Kai Zhang Yi Luan Hexiang Hu Kenton Lee Siyuan Qiao Wenhu Chen Yu-Chuan Su Ming-Wei Chang VLM LRM 39 34 0 28 Mar 2024
Composed Video Retrieval via Enriched Context and Discriminative Embeddings Omkar Thawakar Muzammal Naseer Rao Muhammad Anwer Salman Khan M. Felsberg Mubarak Shah Fahad Shahbaz Khan 32 7 0 25 Mar 2024
Knowledge-Enhanced Dual-stream Zero-shot Composed Image Retrieval Yuchen Suo Fan Ma Linchao Zhu Yi Yang 40 19 0 24 Mar 2024
MyVLM: Personalizing VLMs for User-Specific Queries Yuval Alaluf Elad Richardson Sergey Tulyakov Kfir Aberman Daniel Cohen-Or MLLM VLM 38 18 0 21 Mar 2024