A Light Touch Approach to Teaching Transformers Multi-view Geometry

A Light Touch Approach to Teaching Transformers Multi-view Geometry

28 November 2022

Joao F. Henriques

Andrew Zisserman

Papers citing "A Light Touch Approach to Teaching Transformers Multi-view Geometry"

10 / 10 papers shown

Title
ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval Guanqi Zhan Yuanpei Liu Kai Han Weidi Xie Andrew Zisserman VLM 171 0 0 21 Feb 2025
TopicFM+: Boosting Accuracy and Efficiency of Topic-Assisted Feature Matching Khang Truong Giang Soohwan Song Sung-Guk Jo 26 3 0 02 Jul 2023
Navigating to Objects Specified by Images Jacob Krantz Théophile Gervet Karmesh Yadav Austin S. Wang Chris Paxton Roozbeh Mottaghi Dhruv Batra Jitendra Malik Stefan Lee Devendra Singh Chaplot 44 36 0 03 Apr 2023
Input-level Inductive Biases for 3D Reconstruction Yifan Wang Carl Doersch Relja Arandjelović João Carreira Andrew Zisserman 3DV 45 24 0 06 Dec 2021
Emerging Properties in Self-Supervised Vision Transformers Mathilde Caron Hugo Touvron Ishan Misra Hervé Jégou Julien Mairal Piotr Bojanowski Armand Joulin 317 5,785 0 29 Apr 2021
Patch-NetVLAD: Multi-Scale Fusion of Locally-Global Descriptors for Place Recognition Stephen Hausler Sourav Garg Ming Xu Michael Milford Tobias Fischer 56 329 0 02 Mar 2021
Transformer in Transformer Kai Han An Xiao Enhua Wu Jianyuan Guo Chunjing Xu Yunhe Wang ViT 284 1,524 0 27 Feb 2021
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu H. Pham Quoc V. Le Yun-hsuan Sung Zhen Li Tom Duerig VLM CLIP 298 3,700 0 11 Feb 2021
Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius Heng Wang Lorenzo Torresani ViT 280 1,982 0 09 Feb 2021
Video Transformer Network Daniel Neimark Omri Bar Maya Zohar Dotan Asselmann ViT 198 422 0 01 Feb 2021