Anchor Points: Benchmarking Models with Much Fewer Examples

14 September 2023

Douwe Kiela

Papers citing "Anchor Points: Benchmarking Models with Much Fewer Examples"

29 / 29 papers shown

Title
Efficient Evaluation of Large Language Models via Collaborative Filtering Xu-Xiang Zhong Chao Yi Han-Jia Ye 100 0 0 05 Apr 2025
The False Promise of Imitating Proprietary LLMs Arnav Gudibande Eric Wallace Charles Burton Snell Xinyang Geng Hao Liu Pieter Abbeel Sergey Levine Dawn Song ALM 112 205 0 25 May 2023
Evidence > Intuition: Transferability Estimation for Encoder Selection Elisa Bassignana Max Müller-Eberstein Mike Zhang Barbara Plank 60 8 0 20 Oct 2022
Automatic Chain of Thought Prompting in Large Language Models Zhuosheng Zhang Aston Zhang Mu Li Alexander J. Smola ReLM LRM 148 621 0 07 Oct 2022
Language Models in the Loop: Incorporating Prompting into Weak Supervision Ryan Smith Jason Alan Fries Braden Hancock Stephen H. Bach 108 56 0 04 May 2022
PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts Stephen H. Bach Victor Sanh Zheng-Xin Yong Albert Webson Colin Raffel ... Khalid Almubarak Xiangru Tang Dragomir R. Radev Mike Tian-Jian Jiang Alexander M. Rush VLM 322 348 0 02 Feb 2022
Active Learning at the ImageNet Scale Z. Emam Hong-Min Chu Ping Yeh-Chiang W. Czaja R. Leapman Micah Goldblum Tom Goldstein 60 35 0 25 Nov 2021
Exploring the Limits of Large Scale Pre-training Samira Abnar Mostafa Dehghani Behnam Neyshabur Hanie Sedghi AI4CE 91 118 0 05 Oct 2021
Cartography Active Learning Mike Zhang Barbara Plank 73 38 0 09 Sep 2021
Accuracy on the Line: On the Strong Correlation Between Out-of-Distribution and In-Distribution Generalization John Miller Rohan Taori Aditi Raghunathan Shiori Sagawa Pang Wei Koh Vaishaal Shankar Percy Liang Y. Carmon Ludwig Schmidt OODD OOD 74 278 0 09 Jul 2021
Test Distribution-Aware Active Learning: A Principled Approach Against Distribution Shift and Outliers Andreas Kirsch Tom Rainforth Y. Gal OOD TTA 69 22 0 22 Jun 2021
True Few-Shot Learning with Language Models Ethan Perez Douwe Kiela Kyunghyun Cho 128 437 0 24 May 2021
Dynabench: Rethinking Benchmarking in NLP Douwe Kiela Max Bartolo Yixin Nie Divyansh Kaushik Atticus Geiger ... Pontus Stenetorp Robin Jia Joey Tianyi Zhou Christopher Potts Adina Williams 201 407 0 07 Apr 2021
GRAD-MATCH: Gradient Matching based Data Subset Selection for Efficient Deep Model Training Krishnateja Killamsetty D. Sivasubramanian Ganesh Ramakrishnan A. De Rishabh K. Iyer OOD 139 201 0 27 Feb 2021
On Statistical Bias In Active Learning: How and When To Fix It Sebastian Farquhar Y. Gal Tom Rainforth TDI HAI 42 85 0 27 Jan 2021
Introduction to Core-sets: an Updated Survey Dan Feldman 51 64 0 18 Nov 2020
A Survey of Deep Active Learning Pengzhen Ren Yun Xiao Xiaojun Chang Po-Yao (Bernie) Huang Zhihui Li Brij B. Gupta Xiaojiang Chen Xin Wang 99 1,140 0 30 Aug 2020
Are Labels Always Necessary for Classifier Accuracy Evaluation? Weijian Deng Liang Zheng 58 116 0 06 Jul 2020
Coresets via Bilevel Optimization for Continual Learning and Streaming Zalan Borsos Mojmír Mutný Andreas Krause CLL 76 234 0 06 Jun 2020
DeBERTa: Decoding-enhanced BERT with Disentangled Attention Pengcheng He Xiaodong Liu Jianfeng Gao Weizhu Chen AAML 159 2,737 0 05 Jun 2020
Imitation Attacks and Defenses for Black-box Machine Translation Systems Eric Wallace Mitchell Stern D. Song AAML 77 123 0 30 Apr 2020
Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks Nils Reimers Iryna Gurevych 1.3K 12,226 0 27 Aug 2019
BatchBALD: Efficient and Diverse Batch Acquisition for Deep Bayesian Active Learning Andreas Kirsch Joost R. van Amersfoort Y. Gal FedML 87 627 0 19 Jun 2019
Neural Network Acceptability Judgments Alex Warstadt Amanpreet Singh Samuel R. Bowman 230 1,407 0 31 May 2018
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 1.1K 7,159 0 20 Apr 2018
UMAP: Uniform Manifold Approximation and Projection for Dimension Reduction Leland McInnes John Healy James Melville 160 9,432 0 09 Feb 2018
A Broad-Coverage Challenge Corpus for Sentence Understanding through Inference Adina Williams Nikita Nangia Samuel R. Bowman 522 4,479 0 18 Apr 2017
SQuAD: 100,000+ Questions for Machine Comprehension of Text Pranav Rajpurkar Jian Zhang Konstantin Lopyrev Percy Liang RALM 283 8,134 0 16 Jun 2016
Bayesian Active Learning for Classification and Preference Learning N. Houlsby Ferenc Huszár Zoubin Ghahramani M. Lengyel 122 913 0 24 Dec 2011