Foundational Models Defining a New Era in Vision: A Survey and Outlook

25 July 2023

Muhammad Awais

Muzammal Naseer

Salman Khan

Rao Muhammad Anwer

Hisham Cholakkal

Papers citing "Foundational Models Defining a New Era in Vision: A Survey and Outlook"

50 / 113 papers shown

Title
Boosting Multi-View Stereo with Depth Foundation Model in the Absence of Real-World Labels Jie Zhu Bo Peng Zhe Zhang Bingzheng Liu Jianjun Lei 33 0 0 16 Apr 2025
FACT: Foundation Model for Assessing Cancer Tissue Margins with Mass Spectrometry Mohammad Farahmand A. Jamzad Fahimeh Fooladgar Laura Connolly Martin Kaufmann Kevin Yi Mi Ren John Rudan Doug McKay Gabor Fichtinger P. Mousavi 43 0 0 15 Apr 2025
SynWorld: Virtual Scenario Synthesis for Agentic Action Knowledge Refinement Runnan Fang Xiaobin Wang Yuan Liang Shuofei Qiao Jialong Wu ... N. Zhang Yong-feng Jiang Pengjun Xie Fei Huang H. Chen LLMAG 69 0 0 04 Apr 2025
A Review on Large Language Models for Visual Analytics Navya Sonal Agarwal Sanjay Kumar Sonbhadra 43 0 0 19 Mar 2025
Robustness Tokens: Towards Adversarial Robustness of Transformers Brian Pulfer Yury Belousov S. Voloshynovskiy AAML 45 0 0 13 Mar 2025
WeakMedSAM: Weakly-Supervised Medical Image Segmentation via SAM with Sub-Class Exploration and Prompt Affinity Mining Haoran Wang Lian Huai Wenbin Li Lei Qi Xingqun Jiang Yinghuan Shi MedIm 64 2 0 06 Mar 2025
ZeroPS: High-quality Cross-modal Knowledge Transfer for Zero-Shot 3D Part Segmentation Yuheng Xue Nenglun Chen Jun Liu Wenyun Sun 3DPC 55 7 0 24 Feb 2025
Exploring Patient Data Requirements in Training Effective AI Models for MRI-based Breast Cancer Classification Solha Kang W. D. Neve Francois Rameau Utku Ozbulak OOD 47 0 0 22 Feb 2025
FeatSharp: Your Vision Model Features, Sharper Mike Ranzinger Greg Heinrich Pavlo Molchanov Jan Kautz Bryan Catanzaro Andrew Tao VLM CLIP 58 0 0 22 Feb 2025
Robust-LLaVA: On the Effectiveness of Large-Scale Robust Image Encoders for Multi-modal Large Language Models H. Malik Fahad Shamshad Muzammal Naseer Karthik Nandakumar F. Khan Salman Khan AAML MLLM VLM 68 0 0 03 Feb 2025
The Application of Large Language Models in Recommendation Systems Peiyang Yu Zeqiu Xu Jiani Wang Xiaochuan Xu 87 6 0 20 Jan 2025
A Comprehensive Survey of Foundation Models in Medicine Wasif Khan Seowung Leem Kyle B. See Joshua K. Wong Shaoting Zhang R. Fang AI4CE LM&MA VLM 105 18 0 17 Jan 2025
AgroGPT: Efficient Agricultural Vision-Language Model with Expert Tuning Muhammad Awais Ali Husain Salem Abdulla Alharthi Amandeep Kumar Hisham Cholakkal Rao Muhammad Anwer VLM 65 3 0 10 Jan 2025
LangSurf: Language-Embedded Surface Gaussians for 3D Scene Understanding Hao Li Roy Qin Zhengyu Zou Diqi He B. Li Bingquan Dai Dingewn Zhang J. Han 3DGS 40 1 0 23 Dec 2024
Leveraging Foundation Models To learn the shape of semi-fluid deformable objects Omar El Assal Carlos M. Mateo Sebastien Ciron David Fofi 64 0 0 25 Nov 2024
Segment Anything in Light Fields for Real-Time Applications via Constrained Prompting Nikolai Goncharov Donald G. Dansereau VLM 70 1 0 21 Nov 2024
Foundation Model-Powered 3D Few-Shot Class Incremental Learning via Training-free Adaptor Sahar Ahmadi A. Cheraghian Morteza Saberi Md. Towsif Abir Hamidreza Dastmalchi Farookh Hussain Shafin Rahman 3DPC 26 2 0 11 Oct 2024
Fortify Your Foundations: Practical Privacy and Security for Foundation Model Deployments In The Cloud Marcin Chrapek Anjo Vahldiek-Oberwagner Marcin Spoczynski Scott Constable Mona Vij Torsten Hoefler 30 1 0 08 Oct 2024
Task-Oriented Pre-Training for Drivable Area Detection Fulong Ma Guoyang Zhao Weiqing Qi Ming Liu Jun Ma VLM 28 0 0 30 Sep 2024
Layer-wise Model Merging for Unsupervised Domain Adaptation in Segmentation Tasks Roberto Alcover-Couso Juan C. Sanmiguel Marcos Escudero-Viñolo Jose M. Martínez FedML MoMe 25 1 0 24 Sep 2024
SDFit: 3D Object Pose and Shape by Fitting a Morphable SDF to a Single Image Dimitrije Antić Sai Kumar Dwivedi Shashank Tripathi Theo Gevers Dimitrios Tzionas Dimitrios Tzionas 55 2 0 24 Sep 2024
FIHA: Autonomous Hallucination Evaluation in Vision-Language Models with Davidson Scene Graphs Bowen Yan Zhengsong Zhang Liqiang Jing Eftekhar Hossain Xinya Du 69 1 0 20 Sep 2024
Surveying the MLLM Landscape: A Meta-Review of Current Surveys Ming Li Keyu Chen Ziqian Bi Ming Liu Benji Peng ... Jinlang Wang Sen Zhang X. Pan Jiawei Xu Pohsun Feng OffRL 39 2 0 17 Sep 2024
Bridging Quantitative and Qualitative Methods for Visualization Research: A Data/Semantics Perspective in Light of Advanced AI Daniel Weiskopf 34 0 0 11 Sep 2024
An Art-centric perspective on AI-based content moderation of nudity Piera Riccio Georgina Curto Thomas Hofmann Nuria Oliver 55 0 0 10 Sep 2024
ClimDetect: A Benchmark Dataset for Climate Change Detection and Attribution Sungduk Yu Brian L. White Anahita Bhiwandiwalla Musashi Hinck M. L. Olson Tung Nguyen Vasudev Lal Tung Nguyen Vasudev Lal 34 0 0 28 Aug 2024
Image Segmentation in Foundation Model Era: A Survey Tianfei Zhou Fei Zhang Boyu Chang Wenguan Wang Ye Yuan E. Konukoglu Daniel Cremers VLM 42 4 0 23 Aug 2024
Vision-Based Detection of Uncooperative Targets and Components on Small Satellites Hannah Grauer E. Lupu Connor T. Lee Soon-Jo Chung Darren Rowen Benjamen P. Bycroft Phaedrus Leeds John Brader 33 1 0 22 Aug 2024
BAPLe: Backdoor Attacks on Medical Foundational Models using Prompt Learning Asif Hanif Fahad Shamshad Muhammad Awais Muzammal Naseer F. Khan Karthik Nandakumar Salman Khan Rao Muhammad Anwer MedIm AAML 40 3 0 14 Aug 2024
Segment Using Just One Example Pratik Vora Sudipan Saha VLM 19 1 0 14 Aug 2024
Specialized Change Detection using Segment Anything Tahir Ahmad Sudipan Saha 24 0 0 13 Aug 2024
Reclaiming Residual Knowledge: A Novel Paradigm to Low-Bit Quantization Róisín Luo Alexandru Drimbarean Walsh Simon Colm O'Riordan MQ 29 0 0 01 Aug 2024
MMCLIP: Cross-modal Attention Masked Modelling for Medical Language-Image Pre-Training Biao Wu Yutong Xie Zeyu Zhang Minh Hieu Phan Qi Chen Ling-Hao Chen Qi Wu LM&MA 37 0 0 28 Jul 2024
Building an Ethical and Trustworthy Biomedical AI Ecosystem for the Translational and Clinical Integration of Foundational Models Simha Sankar Baradwaj Destiny Gilliland Jack Rincon Henning Hermjakob Yu Yan ... Dean Wang Karol Watson Alex Bui Wei Wang Peipei Ping 40 5 0 18 Jul 2024
Out of Length Text Recognition with Sub-String Matching Yongkun Du Zhineng Chen Caiyan Jia Xieping Gao Yu-Gang Jiang 51 2 0 17 Jul 2024
Precision at Scale: Domain-Specific Datasets On-Demand Jesús M. Rodríguez-de-Vera Imanol G. Estepa Ignacio Sarasúa Bhalaji Nagarajan P. Radeva 36 2 0 03 Jul 2024
Industrial Language-Image Dataset (ILID): Adapting Vision Foundation Models for Industrial Settings Keno Moenck Duc Trung Thieu Julian Koch Thorsten Schuppstuhl VLM 27 0 0 14 Jun 2024
LLM-based Knowledge Pruning for Time Series Data Analytics on Edge-computing Devices Ruibing Jin Qing Xu Min-man Wu Yuecong Xu Dan Li Xiaoli Li Zhenghua Chen 36 1 0 13 Jun 2024
Training-Free Robust Interactive Video Object Segmentation Xiaoli Wei Zhaoqing Wang Yandong Guo Chunxia Zhang Tongliang Liu Mingming Gong VLM VOS 32 1 0 08 Jun 2024
Tiny models from tiny data: Textual and null-text inversion for few-shot distillation Erik Landolsi Fredrik Kahl DiffM 58 1 0 05 Jun 2024
X-VILA: Cross-Modality Alignment for Large Language Model Hanrong Ye De-An Huang Yao Lu Zhiding Yu Wei Ping ... Jan Kautz Song Han Dan Xu Pavlo Molchanov Hongxu Yin MLLM VLM 40 29 0 29 May 2024
PLUG: Revisiting Amodal Segmentation with Foundation Model and Hierarchical Focus Zhaochen Liu Limeng Qiao Xiangxiang Chu Tingting Jiang 34 2 0 25 May 2024
Low-Rank Adaptation of Time Series Foundational Models for Out-of-Domain Modality Forecasting Divij Gupta Anubhav Bhatti Surajsinh Parmar Chen Dan Yuwei Liu Bingjie Shen San Lee AI4TS 35 2 0 16 May 2024
A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Model Jiexia Ye Weiqi Zhang Ke Yi Yongzi Yu Ziyue Li Jia Li Fugee Tsung AI4TS AI4CE 43 22 0 03 May 2024
Chameleon: A Data-Efficient Generalist for Dense Visual Prediction in the Wild Donggyun Kim Seongwoong Cho Semin Kim Chong Luo Seunghoon Hong VLM 33 2 0 29 Apr 2024
GLIMS: Attention-Guided Lightweight Multi-Scale Hybrid Network for Volumetric Semantic Segmentation Z. A. Yazici Ilkay Oksuz H. K. Ekenel MedIm 38 7 0 27 Apr 2024
Beyond Pixel-Wise Supervision for Medical Image Segmentation: From Traditional Models to Foundation Models Yuyan Shi Jialu Ma Jin Yang Shasha Wang Yichi Zhang MedIm VLM 19 2 0 20 Apr 2024
Empowering Embodied Visual Tracking with Visual Foundation Models and Offline RL Fangwei Zhong Kui Wu Hai Ci Churan Wang Hao Chen OffRL 36 2 0 15 Apr 2024
iVPT: Improving Task-relevant Information Sharing in Visual Prompt Tuning by Cross-layer Dynamic Connection Nan Zhou Jiaxin Chen Di Huang 33 1 0 08 Apr 2024
Foundation Model for Advancing Healthcare: Challenges, Opportunities, and Future Directions Yuting He Fuxiang Huang Xinrui Jiang Yuxiang Nie Minghao Wang Jiguang Wang Hao Chen LM&MA AI4CE 71 27 0 04 Apr 2024