Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking

24 March 2022

Papers citing "Multi-armed bandits for resource efficient, online optimization of language model pre-training: the use case of dynamic masking"

4 / 4 papers shown

Title
Carbon Emissions and Large Neural Network Training David A. Patterson Joseph E. Gonzalez Quoc V. Le Chen Liang Lluís-Miquel Munguía D. Rothchild David R. So Maud Texier J. Dean AI4CE 253 645 0 21 Apr 2021
Scaling Laws for Neural Language Models Jared Kaplan Sam McCandlish T. Henighan Tom B. Brown B. Chess R. Child Scott Gray Alec Radford Jeff Wu Dario Amodei 264 4,505 0 23 Jan 2020
GLUE: A Multi-Task Benchmark and Analysis Platform for Natural Language Understanding Alex Jinpeng Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy Samuel R. Bowman ELM 299 6,984 0 20 Apr 2018
Time-Varying Gaussian Process Bandit Optimization Ilija Bogunovic Jonathan Scarlett V. Cevher 66 95 0 25 Jan 2016