Papers citing "Scaling Vision Transformers to 22 Billion Parameters"

50 / 418 papers shown

Title
Layerwise complexity-matched learning yields an improved model of cortical area V2 Nikhil Parthasarathy Olivier J. Hénaff Eero P. Simoncelli 37 1 0 18 Dec 2023
Data-Efficient Multimodal Fusion on a Single GPU Noël Vouitsis Zhaoyan Liu S. Gorti Valentin Villecroze Jesse C. Cresswell Guangwei Yu G. Loaiza-Ganem M. Volkovs 51 3 0 15 Dec 2023
Foundation Models in Robotics: Applications, Challenges, and the Future Roya Firoozi Johnathan Tucker Stephen Tian Anirudha Majumdar Jiankai Sun ... Brian Ichter Danny Driess Jiajun Wu Cewu Lu Mac Schwager LM&Ro AI4CE LRM VLM 37 142 0 13 Dec 2023
Remote Sensing Vision-Language Foundation Models without Annotations via Ground Remote Alignment Utkarsh Mall Cheng Perng Phoo Meilin Kelsey Liu Carl Vondrick B. Hariharan Kavita Bala VLM 28 39 0 12 Dec 2023
Photorealistic Video Generation with Diffusion Models Agrim Gupta Lijun Yu Kihyuk Sohn Xiuye Gu Meera Hahn Fei-Fei Li Irfan Essa Lu Jiang José Lezama VGen 59 177 0 11 Dec 2023
4M: Massively Multimodal Masked Modeling David Mizrahi Roman Bachmann Ouguzhan Fatih Kar Teresa Yeo Mingfei Gao Afshin Dehghan Amir Zamir MLLM 50 64 0 11 Dec 2023
Structured Inverse-Free Natural Gradient: Memory-Efficient & Numerically-Stable KFAC Wu Lin Felix Dangel Runa Eschenhagen Kirill Neklyudov Agustinus Kristiadi Richard Turner Alireza Makhzani 27 3 0 09 Dec 2023
Neither hype nor gloom do DNNs justice Gaurav Malhotra Christian Tsvetkov B. D. Evans 27 117 0 08 Dec 2023
Adapting Vision Transformer for Efficient Change Detection Yang Zhao Yuxiang Zhang Yanni Dong Bo Du VLM 51 2 0 08 Dec 2023
Scaling Laws of Synthetic Images for Model Training ... for Now Lijie Fan Kaifeng Chen Dilip Krishnan Dina Katabi Phillip Isola Yonglong Tian CLIP VLM 44 62 0 07 Dec 2023
GenTron: Diffusion Transformers for Image and Video Generation Shoufa Chen Mengmeng Xu Jiawei Ren Yuren Cong Sen He Yanping Xie Animesh Sinha Ping Luo Tao Xiang Juan-Manuel Perez-Rua VGen 39 38 0 07 Dec 2023
SAMBA: A Trainable Segmentation Web-App with Smart Labelling Ronan Docherty Isaac Squires Antonis Vamvakeros Samuel J. Cooper 20 4 0 07 Dec 2023
Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future Hongyang Li Yang Li Huijie Wang Jia Zeng Huilin Xu ... Kai Yan Beipeng Mu Zhihui Peng Shaoqing Ren Yu Qiao 27 24 0 06 Dec 2023
Visual Program Distillation: Distilling Tools and Programmatic Reasoning into Vision-Language Models Yushi Hu Otilia Stretcu Chun-Ta Lu Krishnamurthy Viswanathan Kenji Hata Enming Luo Ranjay Krishna Ariel Fuxman VLM LRM MLLM 52 29 0 05 Dec 2023
Rejuvenating image-GPT as Strong Visual Representation Learners Sucheng Ren Zeyu Wang Hongru Zhu Junfei Xiao Alan Yuille Cihang Xie VLM 57 7 0 04 Dec 2023
Bootstrapping SparseFormers from Vision Foundation Models Ziteng Gao Zhan Tong K. Lin Joya Chen Mike Zheng Shou 41 0 0 04 Dec 2023
Language-conditioned Detection Transformer Jang Hyun Cho Philipp Krahenbuhl VLM ObjD 47 1 0 29 Nov 2023
Leveraging VLM-Based Pipelines to Annotate 3D Objects Rishabh Kabra Loic Matthey Alexander Lerchner Niloy J. Mitra 29 6 0 29 Nov 2023
Federated Fine-Tuning of Foundation Models via Probabilistic Masking Vasileios Tsouvalas Yuki M. Asano Aaqib Saeed FedML 87 3 0 29 Nov 2023
Critical Influence of Overparameterization on Sharpness-aware Minimization Sungbin Shin Dongyeop Lee Maksym Andriushchenko Namhoon Lee AAML 47 1 0 29 Nov 2023
TransNeXt: Robust Foveal Visual Perception for Vision Transformers Dai Shi ViT 23 76 0 28 Nov 2023
ScribbleGen: Generative Data Augmentation Improves Scribble-supervised Semantic Segmentation Jacob Schnell Jieke Wang Lu Qi Vincent Tao Hu Meng Tang DiffM 26 3 0 28 Nov 2023
Side4Video: Spatial-Temporal Side Network for Memory-Efficient Image-to-Video Transfer Learning Huanjin Yao Wenhao Wu Zhiheng Li VLM 95 9 0 27 Nov 2023
An Empirical Investigation into Benchmarking Model Multiplicity for Trustworthy Machine Learning: A Case Study on Image Classification Prakhar Ganesh 44 5 0 24 Nov 2023
ADriver-I: A General World Model for Autonomous Driving Fan Jia Weixin Mao Yingfei Liu Yucheng Zhao Yuqing Wen Chi Zhang Xiangyu Zhang Tiancai Wang 48 63 0 22 Nov 2023
Applications of Large Scale Foundation Models for Autonomous Driving Yu Huang Yue Chen Zhu Li ELM AI4CE LRM ALM LM&Ro 61 15 0 20 Nov 2023
Generalized Category Discovery in Semantic Segmentation Zhengyuan Peng Qijian Tian Jianqing Xu Yizhang Jin Xuequan Lu Xin Tan Yuan Xie Lizhuang Ma ISeg 24 2 0 20 Nov 2023
ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy Kirill Vishniakov Zhiqiang Shen Zhuang Liu CLIP 42 16 0 15 Nov 2023
MeLo: Low-rank Adaptation is Better than Fine-tuning for Medical Image Diagnosis Yitao Zhu Zhenrong Shen Zihao Zhao Sheng Wang Xin Wang Xiangyu Zhao Dinggang Shen Qian Wang MedIm 40 28 0 14 Nov 2023
AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs Yassir Fathullah Chunyang Wu Egor Lakomkin Ke Li Junteng Jia Shangguan Yuan Jay Mahadeokar Ozlem Kalinli Christian Fuegen Michael Seltzer LM&MA MLLM AuLLM 27 35 0 12 Nov 2023
Harnessing Synthetic Datasets: The Role of Shape Bias in Deep Neural Network Generalization Elior Benarous Sotiris Anagnostidis Luca Biggio Thomas Hofmann 30 3 0 10 Nov 2023
OtterHD: A High-Resolution Multi-modality Model Bo-wen Li Peiyuan Zhang Jingkang Yang Yuanhan Zhang Fanyi Pu Ziwei Liu VLM MLLM 43 65 0 07 Nov 2023
Scene-Driven Multimodal Knowledge Graph Construction for Embodied AI Yaoxian Song Penglei Sun Haoyu Liu Li Zhixu Wei Song Yanghua Xiao Xiaofang Zhou LM&Ro 53 13 0 07 Nov 2023
Navigating Scaling Laws: Compute Optimality in Adaptive Model Training Sotiris Anagnostidis Gregor Bachmann Imanol Schlag Thomas Hofmann 33 2 0 06 Nov 2023
Large Language Models Illuminate a Progressive Pathway to Artificial Healthcare Assistant: A Review Mingze Yuan Peng Bao Jiajia Yuan Yunhao Shen Zi Chen ... Jie Zhao Yang Chen Li Zhang Lin Shen Bin Dong ELM LM&MA 49 13 0 03 Nov 2023
Simplifying Transformer Blocks Bobby He Thomas Hofmann 27 30 0 03 Nov 2023
Towards Calibrated Robust Fine-Tuning of Vision-Language Models Changdae Oh Hyesu Lim Mijoo Kim Dongyoon Han Junhyeok Park Euiseog Jeong Alexander G. Hauptmann Zhi-Qi Cheng Kyungwoo Song VLM 35 15 0 03 Nov 2023
RTP: Rethinking Tensor Parallelism with Memory Deduplication Cheng Luo Tianle Zhong Geoffrey C. Fox 35 3 0 02 Nov 2023
Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models Andy Zhou Jindong Wang Yu-xiong Wang Haohan Wang VLM 52 6 0 02 Nov 2023
Res-Tuning: A Flexible and Efficient Tuning Paradigm via Unbinding Tuner from Backbone Zeyinzi Jiang Chaojie Mao Ziyuan Huang Ao Ma Yiliang Lv Yujun Shen Deli Zhao Jingren Zhou 35 15 0 30 Oct 2023
On consequences of finetuning on data with highly discriminative features Wojciech Masarczyk Tomasz Trzciñski M. Ostaszewski 30 0 0 30 Oct 2023
Emergence of Shape Bias in Convolutional Neural Networks through Activation Sparsity Tianqin Li Ziqi Wen Yangfan Li Tai Sing Lee 18 10 0 29 Oct 2023
Socially Cognizant Robotics for a Technology Enhanced Society Kristin J. Dana Clinton Andrews Kostas Bekris Jacob Feldman Matthew Stone Pernille Hemmer Aaron Mazzeo Hal Salzman Jingang Yi 18 0 0 27 Oct 2023
A Unified, Scalable Framework for Neural Population Decoding Mehdi Azabou Vinam Arora Venkataramana Ganesh Ximeng Mao Santosh Nachimuthu Michael J. Mendelson Blake A. Richards M. Perich Guillaume Lajoie Eva L. Dyer HAI AI4TS 24 36 0 24 Oct 2023
Extending Input Contexts of Language Models through Training on Segmented Sequences Petros Karypis Julian McAuley George Karypis 32 0 0 23 Oct 2023
Data-Free Knowledge Distillation Using Adversarially Perturbed OpenGL Shader Images Logan Frank Jim Davis 33 1 0 20 Oct 2023
Eureka-Moments in Transformers: Multi-Step Tasks Reveal Softmax Induced Optimization Problems David T. Hoffmann Simon Schrodi Jelena Bratulić Nadine Behrmann Volker Fischer Thomas Brox 38 5 0 19 Oct 2023
Functional Invariants to Watermark Large Transformers Pierre Fernandez Guillaume Couairon Teddy Furon Matthijs Douze 19 8 0 17 Oct 2023
PaLI-3 Vision Language Models: Smaller, Faster, Stronger Xi Chen Xiao Wang Lucas Beyer Alexander Kolesnikov Jialin Wu ... Keran Rong Tianli Yu Daniel Keysers Xiao-Qi Zhai Radu Soricut MLLM VLM 41 94 0 13 Oct 2023
MatFormer: Nested Transformer for Elastic Inference Devvrit Sneha Kudugunta Aditya Kusupati Tim Dettmers Kaifeng Chen ... Yulia Tsvetkov Hannaneh Hajishirzi Sham Kakade Ali Farhadi Prateek Jain 39 23 0 11 Oct 2023