Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

30 March 2021

Papers citing "Kaleido-BERT: Vision-Language Pre-training on Fashion Domain"

27 / 27 papers shown

Title
Seeing the Abstract: Translating the Abstract Language for Vision Language Models Davide Talon Federico Girella Ziyue Liu Marco Cristani Yiming Wang VLM 52 0 0 06 May 2025
CMAL: A Novel Cross-Modal Associative Learning Framework for Vision-Language Pre-Training Zhiyuan Ma Jianjun Li Guohui Li Kaiyan Huang VLM 56 9 0 16 Oct 2024
ExtremeMETA: High-speed Lightweight Image Segmentation Model by Remodeling Multi-channel Metamaterial Imagers Quan Liu Brandon T. Swartz Ivan Kravchenko Jason G Valentine Yuankai Huo 22 2 0 27 May 2024
Enhancing Vision-Language Pre-training with Rich Supervisions Yuan Gao Kunyu Shi Pengkai Zhu Edouard Belval Oren Nuriel Srikar Appalaraju Shabnam Ghadar Vijay Mahadevan Zhuowen Tu Stefano Soatto VLM CLIP 67 12 0 05 Mar 2024
Transformers in Speech Processing: A Survey S. Latif Aun Zaidi Heriberto Cuayáhuitl Fahad Shamshad Moazzam Shoukat Junaid Qadir 42 47 0 21 Mar 2023
Unified Vision-Language Representation Modeling for E-Commerce Same-Style Products Retrieval Ben Chen Linbo Jin Xinxin Wang D. Gao Wen Jiang Wei Ning 19 3 0 10 Feb 2023
Scene-centric vs. Object-centric Image-Text Cross-modal Retrieval: A Reproducibility Study Mariya Hendriksen Svitlana Vakulenko E. Kuiper Maarten de Rijke 31 5 0 12 Jan 2023
3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation Zutao Jiang Guangsong Lu Xiaodan Liang Jihua Zhu Wei Zhang Xiaojun Chang Hang Xu DiffM 21 8 0 02 Dec 2022
Masked Vision-Language Transformer in Fashion Ge-Peng Ji Mingchen Zhuge D. Gao Deng-Ping Fan Christos Sakaridis Luc Van Gool 21 25 0 27 Oct 2022
Contrastive Language-Image Pre-Training with Knowledge Graphs Xuran Pan Tianzhu Ye Dongchen Han S. Song Gao Huang VLM CLIP 22 43 0 17 Oct 2022
Multimodal Learning with Transformers: A Survey P. Xu Xiatian Zhu David A. Clifton ViT 52 525 0 13 Jun 2022
Progressive Learning for Image Retrieval with Hybrid-Modality Queries Yida Zhao Yuqing Song Qin Jin 8 29 0 24 Apr 2022
Training and challenging models for text-guided fashion image retrieval Eric Dodds Jack Culpepper Gaurav Srivastava 18 8 0 23 Apr 2022
Vision-and-Language Pretrained Models: A Survey Siqu Long Feiqi Cao S. Han Haiqing Yang VLM 24 63 0 15 Apr 2022
UIGR: Unified Interactive Garment Retrieval Xiaoping Han Sen He Li Zhang Yi-Zhe Song Tao Xiang 19 7 0 06 Apr 2022
Single-Stream Multi-Level Alignment for Vision-Language Pretraining Zaid Khan B. Vijaykumar Xiang Yu S. Schulter Manmohan Chandraker Y. Fu CLIP VLM 20 16 0 27 Mar 2022
Skating-Mixer: Long-Term Sport Audio-Visual Modeling with MLPs Jingfei Xia Mingchen Zhuge Tiantian Geng Shun Fan Yuantai Wei Zhenyu He Feng Zheng 23 14 0 08 Mar 2022
VLP: A Survey on Vision-Language Pre-training Feilong Chen Duzhen Zhang Minglun Han Xiuyi Chen Jing Shi Shuang Xu Bo Xu VLM 82 213 0 18 Feb 2022
TransFusion: Cross-view Fusion with Transformer for 3D Human Pose Estimation Haoyu Ma Liangjian Chen Deying Kong Zhe Wang Xingwei Liu Hao Tang Xiangyi Yan Yusheng Xie Shi-yao Lin Xiaohui Xie ViT 19 61 0 18 Oct 2021
M5Product: Self-harmonized Contrastive Learning for E-commercial Multi-modal Pretraining Xiao Dong Xunlin Zhan Yangxin Wu Yunchao Wei Michael C. Kampffmeyer Xiaoyong Wei Minlong Lu Yaowei Wang Xiaodan Liang 25 36 0 09 Sep 2021
Recursive Contour Saliency Blending Network for Accurate Salient Object Detection Y. Yun Takahiro Tsubono 48 58 0 28 May 2021
Salient Objects in Clutter Deng-Ping Fan Jing Zhang Gang Xu Mingg-Ming Cheng Ling Shao 39 42 0 07 May 2021
Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions Wenhai Wang Enze Xie Xiang Li Deng-Ping Fan Kaitao Song Ding Liang Tong Lu Ping Luo Ling Shao ViT 277 3,623 0 24 Feb 2021
Salient Object Detection via Integrity Learning Mingchen Zhuge Deng-Ping Fan Nian Liu Dingwen Zhang Dong Xu Ling Shao AAML 60 296 0 19 Jan 2021
Unified Vision-Language Pre-Training for Image Captioning and VQA Luowei Zhou Hamid Palangi Lei Zhang Houdong Hu Jason J. Corso Jianfeng Gao MLLM VLM 252 927 0 24 Sep 2019
Structure-measure: A New Way to Evaluate Foreground Maps Deng-Ping Fan Ming-Ming Cheng Yun-Hai Liu Tao Li Ali Borji 70 1,344 0 02 Aug 2017
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation Yonghui Wu M. Schuster Z. Chen Quoc V. Le Mohammad Norouzi ... Alex Rudnick Oriol Vinyals G. Corrado Macduff Hughes J. Dean AIMat 716 6,743 0 26 Sep 2016