V $^2$ L: Leveraging Vision and Vision-language Models into Large-scale Product Retrieval

26 July 2022

Yifan Sun

Yi Yang

Papers citing "V$^2$L: Leveraging Vision and Vision-language Models into Large-scale Product Retrieval"

24 / 24 papers shown

Title
Neighborhood Attention Transformer Ali Hassani Steven Walton Jiacheng Li Shengjia Li Humphrey Shi ViT AI4TS 78 268 0 14 Apr 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 501 4,324 0 28 Jan 2022
SLIP: Self-supervision meets Language-Image Pre-training Norman Mu Alexander Kirillov David Wagner Saining Xie VLM CLIP 129 488 0 23 Dec 2021
SimMIM: A Simple Framework for Masked Image Modeling Zhenda Xie Zheng Zhang Yue Cao Yutong Lin Jianmin Bao Zhuliang Yao Qi Dai Han Hu 170 1,344 0 18 Nov 2021
Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual Concepts Yan Zeng Xinsong Zhang Hang Li VLM CLIP 57 305 0 16 Nov 2021
Bag of Tricks and A Strong baseline for Image Copy Detection Wenhao Wang Weipu Zhang Yifan Sun Yi Yang SSL 25 15 0 13 Nov 2021
D $^2$ LV: A Data-Driven and Local-Verification Approach for Image Copy Detection Wenhao Wang Yifan Sun Weipu Zhang Yi Yang 39 7 0 13 Nov 2021
An Empirical Study of Training End-to-End Vision-and-Language Transformers Zi-Yi Dou Yichong Xu Zhe Gan Jianfeng Wang Shuohang Wang ... Pengchuan Zhang Lu Yuan Nanyun Peng Zicheng Liu Michael Zeng VLM 65 376 0 03 Nov 2021
Contextual Transformer Networks for Visual Recognition Yehao Li Ting Yao Yingwei Pan Tao Mei ViT 79 482 0 26 Jul 2021
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation Junnan Li Ramprasaath R. Selvaraju Akhilesh Deepak Gotmare Shafiq Joty Caiming Xiong Guosheng Lin FaML 167 1,943 0 16 Jul 2021
eProduct: A Million-Scale Visual Search Benchmark to Address Product Recognition Challenges Jiangbo Yuan An-Ti Chiang Wen Tang A. Haro VLM 34 6 0 13 Jul 2021
BEiT: BERT Pre-Training of Image Transformers Hangbo Bao Li Dong Songhao Piao Furu Wei ViT 236 2,812 0 15 Jun 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 824 29,167 0 26 Feb 2021
HS-ResNet: Hierarchical-Split Block on Convolutional Neural Network P. Yuan Shufei Lin Cheng Cui Yuning Du Ruoyu Guo Dongliang He Errui Ding Shumin Han 41 43 0 15 Oct 2020
Weakly Supervised Learning with Side Information for Noisy Labeled Images Lele Cheng Xiangzeng Zhou Liming Zhao Dangwei Li Hong Shang Yun Zheng Pan Pan Yinghui Xu NoLa 69 44 0 25 Aug 2020
Products-10K: A Large-scale Product Recognition Dataset Yalong Bai Yuxiang Chen Wei Yu Linfang Wang Wei Zhang 67 44 0 24 Aug 2020
ResNeSt: Split-Attention Networks Hang Zhang Chongruo Wu Zhongyue Zhang Yi Zhu Yanghua Peng ... Tong He Jonas W. Mueller R. Manmatha Mu Li Alex Smola 89 1,473 0 19 Apr 2020
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova VLM SSL SSeg 1.6K 94,511 0 11 Oct 2018
CosFace: Large Margin Cosine Loss for Deep Face Recognition Haobo Wang Yitong Wang Zheng Zhou Xing Ji Dihong Gong Jin Zhou Zhifeng Li Wei Liu CVBM MQ 121 2,498 0 29 Jan 2018
Fine-tuning CNN Image Retrieval with No Human Annotation Filip Radenovic Giorgos Tolias Ondřej Chum 81 1,300 0 03 Nov 2017
In Defense of the Triplet Loss for Person Re-Identification Alexander Hermans Lucas Beyer Bastian Leibe DML 76 3,200 0 22 Mar 2017
Re-ranking Person Re-identification with k-reciprocal Encoding Zhun Zhong Liang Zheng Donglin Cao Shaozi Li 127 1,504 0 29 Jan 2017
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Zhuowen Tu Kaiming He 495 10,305 0 16 Nov 2016
Efficient Estimation of Word Representations in Vector Space Tomas Mikolov Kai Chen G. Corrado J. Dean 3DV 637 31,469 0 16 Jan 2013

V2^22L: Leveraging Vision and Vision-language Models into Large-scale Product Retrieval

Papers citing "V$^2$L: Leveraging Vision and Vision-language Models into Large-scale Product Retrieval"

V $^2$ L: Leveraging Vision and Vision-language Models into Large-scale Product Retrieval