v1v2 (latest)

ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000 ImageNet Categories

24 May 2023

Heming Xia

Qingxiu Dong

Lei Li

Zhifang Sui

ArXiv (abs)PDF HTML Github (10★)

Papers citing "ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000 ImageNet Categories"

25 / 25 papers shown

Title
Can Language Models Understand Physical Concepts? Lei Li Jingjing Xu Qingxiu Dong Ce Zheng Qi Liu Lingpeng Kong Xu Sun ALM 61 22 0 23 May 2023
Pythia: A Suite for Analyzing Large Language Models Across Training and Scaling Stella Biderman Hailey Schoelkopf Quentin G. Anthony Herbie Bradley Kyle O'Brien ... USVSN Sai Prashanth Edward Raff Aviya Skowron Lintang Sutawika Oskar van der Wal 112 1,307 0 03 Apr 2023
LLaMA: Open and Efficient Foundation Language Models Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux ... Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave Guillaume Lample ALM PILM 1.6K 13,490 0 27 Feb 2023
Z-LaVI: Zero-Shot Language Solver Fueled by Visual Imagination Yue Yang Wenlin Yao Hongming Zhang Xiaoyang Wang Dong Yu Jianshu Chen VLM 83 22 0 21 Oct 2022
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action Dhruv Shah B. Osinski Brian Ichter Sergey Levine LM&Ro 253 469 0 10 Jul 2022
Language Models are General-Purpose Interfaces Y. Hao Haoyu Song Li Dong Shaohan Huang Zewen Chi Wenhui Wang Shuming Ma Furu Wei MLLM 71 99 0 13 Jun 2022
Visual Commonsense in Pretrained Unimodal and Multimodal Models Chenyu Zhang Benjamin Van Durme Zhuowan Li Elias Stengel-Eskin VLM SSL 74 41 0 04 May 2022
OPT: Open Pre-trained Transformer Language Models Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen ... Daniel Simig Punit Singh Koura Anjali Sridhar Tianlu Wang Luke Zettlemoyer VLM OSLM AI4CE 379 3,700 0 02 May 2022
GPT-NeoX-20B: An Open-Source Autoregressive Language Model Sid Black Stella Biderman Eric Hallahan Quentin G. Anthony Leo Gao ... Shivanshu Purohit Laria Reynolds J. Tow Benqi Wang Samuel Weinbach 184 837 0 14 Apr 2022
Things not Written in Text: Exploring Spatial Commonsense from Visual Signals Xiao Liu Da Yin Yansong Feng Dongyan Zhao LRM 80 46 0 15 Mar 2022
BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation Junnan Li Dongxu Li Caiming Xiong Guosheng Lin MLLM BDL VLM CLIP 557 4,421 0 28 Jan 2022
High-Resolution Image Synthesis with Latent Diffusion Models Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser Bjorn Ommer 3DV 520 15,788 0 20 Dec 2021
MAGMA -- Multimodal Augmentation of Generative Models through Adapter-based Finetuning C. Eichenberg Sid Black Samuel Weinbach Letitia Parcalabescu Anette Frank MLLM VLM 63 100 0 09 Dec 2021
Transferring Knowledge from Vision to Language: How to Achieve it and how to Measure it? Tobias Norlund Lovisa Hagström Richard Johansson 64 25 0 23 Sep 2021
Multimodal Few-Shot Learning with Frozen Language Models Maria Tsimpoukelli Jacob Menick Serkan Cabi S. M. Ali Eslami Oriol Vinyals Felix Hill MLLM 188 788 0 25 Jun 2021
Premise-based Multimodal Reasoning: Conditional Inference on Joint Textual and Visual Clues Qingxiu Dong Ziwei Qin Heming Xia Tian Feng Shoujie Tong ... Weidong Zhan Sujian Li Zhongyu Wei Tianyu Liu Zuifang Sui LRM 64 11 0 15 May 2021
Learning Transferable Visual Models From Natural Language Supervision Alec Radford Jong Wook Kim Chris Hallacy Aditya A. Ramesh Gabriel Goh ... Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger Ilya Sutskever CLIP VLM 1.0K 29,926 0 26 Feb 2021
The Pile: An 800GB Dataset of Diverse Text for Language Modeling Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe ... Horace He Anish Thite Noa Nabeshima Shawn Presser Connor Leahy AIMat 478 2,123 0 31 Dec 2020
Language Models are Few-Shot Learners Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan ... Christopher Berner Sam McCandlish Alec Radford Ilya Sutskever Dario Amodei BDL 911 42,520 0 28 May 2020
Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference Timo Schick Hinrich Schütze 359 1,622 0 21 Jan 2020
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer Colin Raffel Noam M. Shazeer Adam Roberts Katherine Lee Sharan Narang Michael Matena Yanqi Zhou Wei Li Peter J. Liu AIMat 521 20,376 0 23 Oct 2019
CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge Alon Talmor Jonathan Herzig Nicholas Lourie Jonathan Berant RALM 151 1,754 0 02 Nov 2018
On Calibration of Modern Neural Networks Chuan Guo Geoff Pleiss Yu Sun Kilian Q. Weinberger UQCV 299 5,877 0 14 Jun 2017
Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering Yash Goyal Tejas Khot D. Summers-Stay Dhruv Batra Devi Parikh CoGe 364 3,274 0 02 Dec 2016
Are Elephants Bigger than Butterflies? Reasoning about Sizes of Objects Hessam Bagherinezhad Hannaneh Hajishirzi Yejin Choi Ali Farhadi 59 48 0 02 Feb 2016