v1v2v3 (latest)

SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

2 May 2019

Amanpreet Singh

Papers citing "SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems"

50 / 1,500 papers shown

Title
How to Plant Trees in Language Models: Data and Architectural Effects on the Emergence of Syntactic Inductive Biases Aaron Mueller Tal Linzen AI4CE 62 21 0 31 May 2023
LAIT: Efficient Multi-Segment Encoding in Transformers with Layer-Adjustable Interaction Jeremiah Milbauer Annie Louis Mohammad Javad Hosseini Alex Fabrikant Donald Metzler Tal Schuster 121 9 0 31 May 2023
Intriguing Properties of Quantization at Scale Arash Ahmadian Saurabh Dash Hongyu Chen Bharat Venkitesh Stephen Gou Phil Blunsom Ahmet Üstün Sara Hooker MQ 121 38 0 30 May 2023
Universality and Limitations of Prompt Tuning Yihan Wang Jatin Chauhan Wei Wang Cho-Jui Hsieh 145 18 0 30 May 2023
Brainformers: Trading Simplicity for Efficiency Yan-Quan Zhou Nan Du Yanping Huang Daiyi Peng Chang Lan ... Zhifeng Chen Quoc V. Le Claire Cui J.H.J. Laundon J. Dean MoE 83 27 0 29 May 2023
From Adversarial Arms Race to Model-centric Evaluation: Motivating a Unified Automatic Robustness Evaluation Framework Yangyi Chen Hongcheng Gao Ganqu Cui Lifan Yuan Dehan Kong ... Longtao Huang H. Xue Zhiyuan Liu Maosong Sun Heng Ji AAML ELM 101 6 0 29 May 2023
A Systematic Study and Comprehensive Evaluation of ChatGPT on Benchmark Datasets Md Tahmid Rahman Laskar M Saiful Bari Mizanur Rahman Md Amran Hossen Bhuiyan Shafiq Joty J. Huang LM&MA ELM ALM 125 193 0 29 May 2023
Fine-Tuning Language Models with Just Forward Passes Sadhika Malladi Tianyu Gao Eshaan Nichani Alexandru Damian Jason D. Lee Danqi Chen Sanjeev Arora 148 205 0 27 May 2023
Entailment as Robust Self-Learner Jiaxin Ge Hongyin Luo Yoon Kim James R. Glass 107 3 0 26 May 2023
Few-shot Fine-tuning vs. In-context Learning: A Fair Comparison and Evaluation Marius Mosbach Tiago Pimentel Shauli Ravfogel Dietrich Klakow Yanai Elazar 106 135 0 26 May 2023
With a Little Push, NLI Models can Robustly and Efficiently Predict Faithfulness Julius Steen Juri Opitz Anette Frank K. Markert HILM 87 9 0 26 May 2023
To Revise or Not to Revise: Learning to Detect Improvable Claims for Argumentative Writing Support Gabriella Skitalinskaya Henning Wachsmuth 54 9 0 26 May 2023
Parameter-Efficient Fine-Tuning without Introducing New Latency Baohao Liao Yan Meng Christof Monz 59 56 0 26 May 2023
Scaling Data-Constrained Language Models Niklas Muennighoff Alexander M. Rush Boaz Barak Teven Le Scao Aleksandra Piktus Nouamane Tazi S. Pyysalo Thomas Wolf Colin Raffel ALM 178 226 0 25 May 2023
Large Language Models are Few-Shot Health Learners Xin Liu Daniel J. McDuff G. Kovács I. Galatzer-Levy Jacob Sunshine Jiening Zhan M. Poh Shun Liao P. Achille Shwetak N. Patel LM&MA AI4MH 132 115 0 24 May 2023
Large Language Models for User Interest Journeys Konstantina Christakopoulou Alberto Lalama Cj Adams Iris Qu Yifat Amir ... Dina Bseiso Sarah Scodel Lucas Dixon Ed H. Chi Minmin Chen 102 30 0 24 May 2023
Self-Evolution Learning for Discriminative Language Model Pretraining Qihuang Zhong Liang Ding Juhua Liu Bo Du Dacheng Tao 91 12 0 24 May 2023
Revisiting Token Dropping Strategy in Efficient BERT Pretraining Qihuang Zhong Liang Ding Juhua Liu Xuebo Liu Min Zhang Bo Du Dacheng Tao VLM 73 10 0 24 May 2023
EvEval: A Comprehensive Evaluation of Event Semantics for Large Language Models Zhengwei Tao Zhi Jin Xiaoying Bai Haiyan Zhao Yanlin Feng Jia Li Wenpeng Hu 88 5 0 24 May 2023
Revisiting Parallel Context Windows: A Frustratingly Simple Alternative and Chain-of-Thought Deterioration Kejuan Yang Xiao Liu Kaiwen Men Aohan Zeng Yuxiao Dong Jie Tang LLMAG LRM 57 3 0 24 May 2023
Towards Adaptive Prefix Tuning for Parameter-Efficient Language Model Fine-tuning Zhen-Ru Zhang Chuanqi Tan Haiyang Xu Chengyu Wang Jun Huang Songfang Huang 73 38 0 24 May 2023
On Degrees of Freedom in Defining and Testing Natural Language Understanding Saku Sugawara S. Tsugita ELM 79 1 0 24 May 2023
C-STS: Conditional Semantic Textual Similarity Ameet Deshpande Carlos E. Jimenez Howard Chen Vishvak Murahari Victoria Graf Tanmay Rajpurohit Ashwin Kalyan Danqi Chen Karthik Narasimhan 61 3 0 24 May 2023
SETI: Systematicity Evaluation of Textual Inference Xiyan Fu Anette Frank LRM 46 5 0 24 May 2023
How Predictable Are Large Language Model Capabilities? A Case Study on BIG-bench Qinyuan Ye Harvey Yiyun Fu Xiang Ren Robin Jia ELM 115 24 0 24 May 2023
Do LLMs Understand Social Knowledge? Evaluating the Sociability of Large Language Models with SocKET Benchmark Minje Choi Jiaxin Pei Sagar Kumar Chang Shu David Jurgens ALM LLMAG 125 72 0 24 May 2023
Universal Self-Adaptive Prompting Xingchen Wan Ruoxi Sun Hootan Nakhost H. Dai Julian Martin Eisenschlos Sercan O. Arik Tomas Pfister LRM 108 12 0 24 May 2023
Improving Probability-based Prompt Selection Through Unified Evaluation and Analysis Sohee Yang Jonghyeon Kim Joel Jang Seonghyeon Ye Hyunji Lee Minjoon Seo 66 10 0 24 May 2023
Adapting Language Models to Compress Contexts Alexis Chevalier Alexander Wettig Anirudh Ajith Danqi Chen LLMAG 79 191 0 24 May 2023
GlobalBench: A Benchmark for Global Progress in Natural Language Processing Yueqi Song Catherine Cui Simran Khanuja Pengfei Liu Fahim Faisal ... Alham Fikri Aji Samuel Cahyawijaya Yulia Tsvetkov Antonios Anastasopoulos Graham Neubig 101 9 0 24 May 2023
Instructions as Backdoors: Backdoor Vulnerabilities of Instruction Tuning for Large Language Models Lyne Tchapmi Mingyu Derek Ma Fei Wang Chaowei Xiao Muhao Chen SILM 137 85 0 24 May 2023
Do prompt positions really matter? Junyu Mao Stuart E. Middleton Mahesan Niranjan VLM 65 6 0 23 May 2023
Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training Hong Liu Zhiyuan Li David Leo Wright Hall Percy Liang Tengyu Ma VLM 138 148 0 23 May 2023
In-Context Probing: Toward Building Robust Classifiers via Probing Large Language Models Afra Amini Massimiliano Ciaramita ReLM 30 1 0 23 May 2023
WYWEB: A NLP Evaluation Benchmark For Classical Chinese Bo Zhou Qianglong Chen Tianyu Wang Xiaoshi Zhong Yin Zhang ELM 116 10 0 23 May 2023
Better Zero-Shot Reasoning with Self-Adaptive Prompting Xingchen Wan Ruoxi Sun H. Dai Sercan O. Arik Tomas Pfister ReLM OffRL LRM 86 54 0 23 May 2023
Revisiting Acceptability Judgements Hai Hu Ziyin Zhang Wei-Ping Huang J. Lai Aini Li Yi Ma Jiahui Huang Peng Zhang Chien-Jer Charles Lin Rui Wang 71 2 0 23 May 2023
Concept-aware Training Improves In-context Learning Ability of Language Models Michal Štefánik Marek Kadlcík KELM LRM 84 0 0 23 May 2023
Understanding and Mitigating Spurious Correlations in Text Classification with Neighborhood Analysis Oscar Chew Hsuan-Tien Lin Kai-Wei Chang Kuan-Hao Huang 80 6 0 23 May 2023
Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot Text Classification Tasks Haoqi Zheng Qihuang Zhong Liang Ding Zhiliang Tian Xin-Yi Niu Dongsheng Li Dacheng Tao VLM 99 7 0 22 May 2023
RWKV: Reinventing RNNs for the Transformer Era Bo Peng Eric Alcaide Quentin G. Anthony Alon Albalak Samuel Arcadinho ... Qihang Zhao P. Zhou Qinghua Zhou Jian Zhu Rui-Jie Zhu 240 612 0 22 May 2023
DUMB: A Benchmark for Smart Evaluation of Dutch Models Wietse de Vries Martijn B. Wieling Malvina Nissim ELM ALM MoE 60 6 0 22 May 2023
Iterative Forward Tuning Boosts In-Context Learning in Language Models Jiaxi Yang Binyuan Hui Min Yang Bailin Wang Bowen Li Binhua Li Fei Huang Yongbin Li 107 16 0 22 May 2023
Cross-functional Analysis of Generalisation in Behavioural Learning Pedro Henrique Luz de Araujo Benjamin Roth 61 4 0 22 May 2023
PrOnto: Language Model Evaluations for 859 Languages Luke Gessler 62 1 0 22 May 2023
Has It All Been Solved? Open NLP Research Questions Not Solved by Large Language Models Oana Ignat Zhijing Jin Artem Abzaliev Laura Biester Santiago Castro ... Verónica Pérez-Rosas Siqi Shen Zekun Wang Winston Wu Rada Mihalcea LRM 136 6 0 21 May 2023
VNHSGE: VietNamese High School Graduation Examination Dataset for Large Language Models Dao Xuan-Quy Le Ngoc-Bich Vo The-Duy Phan Xuan-Dung Ngo Bac-Bien Nguyen Van-Tien Nguyen Thi-My-Thanh Nguyen Hong-Phuoc 61 16 0 20 May 2023
Separating form and meaning: Using self-consistency to quantify task understanding across multiple senses Xenia Ohmer Elia Bruni Dieuwke Hupkes LRM 102 16 0 19 May 2023
Ahead-of-Time P-Tuning Daniil Gavrilov Nikita Balagansky 56 1 0 18 May 2023
Instruction Tuned Models are Quick Learners Himanshu Gupta Saurabh Arjun Sawant Swaroop Mishra Mutsumi Nakamura Arindam Mitra Santosh Mashetty Chitta Baral 79 26 0 17 May 2023