BabyVLM: Data-Efficient Pretraining of VLMs Inspired by Infant Learning

BabyVLM: Data-Efficient Pretraining of VLMs Inspired by Infant Learning

13 April 2025

Venkatesh Saligrama

ArXiv (abs)PDF HTML

Papers citing "BabyVLM: Data-Efficient Pretraining of VLMs Inspired by Infant Learning"

17 / 17 papers shown

Title
Qwen2.5-VL Technical Report S. Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge ... Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu Junyang Lin VLM 322 685 0 20 Feb 2025
The BabyView dataset: High-resolution egocentric videos of infants' and young children's everyday experiences Bria Long Violet Xiang Stefan Stojanov Robert Z. Sparks Zi Yin ... Steven Y. Feng Chengxu Zhuang V. Marchman Daniel L. K. Yamins Michael C. Frank VGen EgoV 75 3 0 14 Jun 2024
A systematic investigation of learnability from single child linguistic input Yulu Qin Wentao Wang Brenden M. Lake 91 5 0 12 Feb 2024
CLAMP: Contrastive LAnguage Model Prompt-tuning Piotr Teterwak Ximeng Sun Bryan A. Plummer Kate Saenko Ser-Nam Lim MLLM VLM 59 1 0 04 Dec 2023
Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng Wei-Lin Chiang Ying Sheng Siyuan Zhuang Zhanghao Wu ... Dacheng Li Eric Xing Haotong Zhang Joseph E. Gonzalez Ion Stoica ALM OSLM ELM 391 4,388 0 09 Jun 2023
Visual Instruction Tuning Haotian Liu Chunyuan Li Qingyang Wu Yong Jae Lee SyDa VLM MLLM 560 4,861 0 17 Apr 2023
LAION-5B: An open large-scale dataset for training next generation image-text models Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman ... Srivatsa Kundurthy Katherine Crowson Ludwig Schmidt R. Kaczmarczyk J. Jitsev VLM MLLM CLIP 194 3,482 0 16 Oct 2022
Winoground: Probing Vision and Language Models for Visio-Linguistic Compositionality Tristan Thrush Ryan Jiang Max Bartolo Amanpreet Singh Adina Williams Douwe Kiela Candace Ross CoGe 106 426 0 07 Apr 2022
Training Compute-Optimal Large Language Models Jordan Hoffmann Sebastian Borgeaud A. Mensch Elena Buchatskaya Trevor Cai ... Karen Simonyan Erich Elsen Jack W. Rae Oriol Vinyals Laurent Sifre AI4TS 208 1,949 0 29 Mar 2022
Design Guidelines for Prompt Engineering Text-to-Image Generative Models Vivian Liu Lydia B. Chilton 65 497 0 14 Sep 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 967 29,731 0 26 Feb 2021
The Next Big Thing(s) in Unsupervised Machine Learning: Five Lessons from Infant Learning L. Zaadnoordijk Tarek R. Besold R. Cusack SSL DRL 33 3 0 17 Sep 2020
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 826 42,332 0 28 May 2020
Aggregated Residual Transformations for Deep Neural Networks Saining Xie Ross B. Girshick Piotr Dollár Zhuowen Tu Kaiming He 522 10,345 0 16 Nov 2016
Yin and Yang: Balancing and Answering Binary Visual Questions Peng Zhang Yash Goyal D. Summers-Stay Dhruv Batra Devi Parikh CoGe 87 352 0 16 Nov 2015
VQA: Visual Question Answering Aishwarya Agrawal Jiasen Lu Stanislaw Antol Margaret Mitchell C. L. Zitnick Dhruv Batra Devi Parikh CoGe 211 5,497 0 03 May 2015
Microsoft COCO: Common Objects in Context Nayeon Lee Michael Maire Serge J. Belongie Lubomir Bourdev Ross B. Girshick James Hays Pietro Perona Deva Ramanan C. L. Zitnick Piotr Dollár ObjD 416 43,777 0 01 May 2014