Are Larger Pretrained Language Models Uniformly Better? Comparing
Performance at the Instance Level

Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level

13 May 2021

Ruiqi Zhong

Jacob Steinhardt

Papers citing "Are Larger Pretrained Language Models Uniformly Better? Comparing Performance at the Instance Level"

17 / 17 papers shown

Title
Synergy and Diversity in CLIP: Enhancing Performance Through Adaptive Backbone Ensembling Cristian Rodriguez-Opazo Ehsan Abbasnejad Damien Teney Edison Marrese-Taylor Hamed Damirchi Anton Van Den Hengel VLM 40 1 0 27 May 2024
MenatQA: A New Dataset for Testing the Temporal Comprehension and Reasoning Abilities of Large Language Models Yifan Wei Yisong Su Huanhuan Ma Xiaoyan Yu Fangyu Lei Yuanzhe Zhang Jun Zhao Kang Liu LRM 24 10 0 08 Oct 2023
Anchor Points: Benchmarking Models with Much Fewer Examples Rajan Vivek Kawin Ethayarajh Diyi Yang Douwe Kiela ALM 29 22 0 14 Sep 2023
Beyond Mahalanobis-Based Scores for Textual OOD Detection Pierre Colombo Eduardo Dadalto Camara Gomes Guillaume Staerman Nathan Noiry Pablo Piantanida OODD 52 5 0 24 Nov 2022
ModelDiff: A Framework for Comparing Learning Algorithms Harshay Shah Sung Min Park Andrew Ilyas A. Madry SyDa 51 26 0 22 Nov 2022
GULP: a prediction-based metric between representations Enric Boix Adserà Hannah Lawrence George Stepaniants Philippe Rigollet 46 11 0 12 Oct 2022
Evaluating Distributional Distortion in Neural Language Modeling Benjamin LeBrun Alessandro Sordoni Timothy J. O'Donnell 22 22 0 24 Mar 2022
Scaling Laws Under the Microscope: Predicting Transformer Performance from Small Scale Experiments Maor Ivgi Y. Carmon Jonathan Berant 16 17 0 13 Feb 2022
Datamodels: Predicting Predictions from Training Data Andrew Ilyas Sung Min Park Logan Engstrom Guillaume Leclerc A. Madry TDI 47 131 0 01 Feb 2022
The Effect of Model Size on Worst-Group Generalization Alan Pham Eunice Chan V. Srivatsa Dhruba Ghosh Yaoqing Yang Yaodong Yu Ruiqi Zhong Joseph E. Gonzalez Jacob Steinhardt 23 5 0 08 Dec 2021
How Emotionally Stable is ALBERT? Testing Robustness with Stochastic Weight Averaging on a Sentiment Analysis Task Urja Khurana Eric T. Nalisnick Antske Fokkens MoMe 29 6 0 18 Nov 2021
Building Legal Datasets Jerrold Soh ELM AILaw 22 3 0 03 Nov 2021
The MultiBERTs: BERT Reproductions for Robustness Analysis Thibault Sellam Steve Yadlowsky Jason W. Wei Naomi Saphra Alexander DÁmour ... Iulia Turc Jacob Eisenstein Dipanjan Das Ian Tenney Ellie Pavlick 24 93 0 30 Jun 2021
An Investigation of Why Overparameterization Exacerbates Spurious Correlations Shiori Sagawa Aditi Raghunathan Pang Wei Koh Percy Liang 152 371 0 09 May 2020
Calibration of Pre-trained Transformers Shrey Desai Greg Durrett UQLM 243 289 0 17 Mar 2020
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 261 4,489 0 23 Jan 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 297 6,959 0 20 Apr 2018