LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for
Remote Sensing Image-Text Retrival

LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival

16 March 2024

Papers citing "LuoJiaHOG: A Hierarchy Oriented Geo-aware Image Caption Dataset for Remote Sensing Image-Text Retrival"

18 / 18 papers shown

Title
Meta Learning to Bridge Vision and Language Models for Multimodal Few-Shot Learning Ivona Najdenkoska Xiantong Zhen Marcel Worring VLM 95 18 0 28 Feb 2023
Flamingo: a Visual Language Model for Few-Shot Learning Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr ... Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman Karen Simonyan MLLM VLM 302 3,458 0 29 Apr 2022
Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote Sensing Image Retrieval Zhiqiang Yuan Wenkai Zhang Kun Fu Xuan Li Chubo Deng Hongqi Wang Xian Sun 56 136 0 21 Apr 2022
Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information Zhiqiang Yuan Wenkai Zhang Changyuan Tian Xuee Rong Zhengyuan Zhang Hongqi Wang Kun Fu Xian Sun 48 124 0 21 Apr 2022
RedCaps: web-curated image-text data created by the people, for the people Karan Desai Gaurav Kaul Zubin Aysola Justin Johnson 87 166 0 22 Nov 2021
FILIP: Fine-grained Interactive Language-Image Pre-Training Lewei Yao Runhu Huang Lu Hou Guansong Lu Minzhe Niu Hang Xu Xiaodan Liang Zhenguo Li Xin Jiang Chunjing Xu VLM CLIP 80 627 0 09 Nov 2021
LAION-400M: Open Dataset of CLIP-Filtered 400 Million Image-Text Pairs Christoph Schuhmann Richard Vencu Romain Beaumont R. Kaczmarczyk Clayton Mullis Aarush Katta Theo Coombes J. Jitsev Aran Komatsuzaki VLM MLLM CLIP 187 1,398 0 03 Nov 2021
CLIP-Adapter: Better Vision-Language Models with Feature Adapters Peng Gao Shijie Geng Renrui Zhang Teli Ma Rongyao Fang Yongfeng Zhang Hongsheng Li Yu Qiao VLM CLIP 220 1,011 0 09 Oct 2021
XCiT: Cross-Covariance Image Transformers Alaaeldin El-Nouby Hugo Touvron Mathilde Caron Piotr Bojanowski Matthijs Douze ... Ivan Laptev Natalia Neverova Gabriel Synnaeve Jakob Verbeek Hervé Jégou ViT 118 508 0 17 Jun 2021
Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts Soravit Changpinyo P. Sharma Nan Ding Radu Soricut VLM 416 1,103 0 17 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 407 3,778 0 11 Feb 2021
Probabilistic Embeddings for Cross-Modal Retrieval Sanghyuk Chun Seong Joon Oh Rafael Sampaio de Rezende Yannis Kalantidis Diane Larlus UQCV 457 204 0 13 Jan 2021
BigEarthNet: A Large-Scale Benchmark Archive For Remote Sensing Image Understanding Gencer Sumbul Marcela Charfuelan Begüm Demir Volker Markl 81 447 0 16 Feb 2019
Text-guided Attention Model for Image Captioning Jonghwan Mun Minsu Cho Bohyung Han VLM 39 92 0 12 Dec 2016
Feature Pyramid Networks for Object Detection Nayeon Lee Piotr Dollár Ross B. Girshick Kaiming He Bharath Hariharan Serge J. Belongie ObjD 429 21,951 0 09 Dec 2016
Microsoft COCO Captions: Data Collection and Evaluation Server Xinlei Chen Hao Fang Nayeon Lee Ramakrishna Vedantam Saurabh Gupta Piotr Dollar C. L. Zitnick 180 2,461 0 01 Apr 2015
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention Ke Xu Jimmy Ba Ryan Kiros Kyunghyun Cho Aaron Courville Ruslan Salakhutdinov R. Zemel Yoshua Bengio DiffM 298 10,034 0 10 Feb 2015
Deep Semantic Ranking Based Hashing for Multi-Label Image Retrieval F. Zhao Yongzhen Huang Liang Wang Tieniu Tan 63 610 0 26 Jan 2015