v1v2v3 (latest)

SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

2 May 2019

Amanpreet Singh

Papers citing "SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems"

50 / 1,500 papers shown

Title
Do Language Models Care About Text Quality? Evaluating Web-Crawled Corpora Across 11 Languages Rik van Noord Taja Kuzman Peter Rupnik Nikola Ljubesic Miquel Espla-Gomis Gema Ramírez-Sánchez Antonio Toral ALM 61 2 0 13 Mar 2024
CLIcK: A Benchmark Dataset of Cultural and Linguistic Intelligence in Korean Eunsu Kim Juyoung Suk Philhoon Oh Haneul Yoo James Thorne Alice Oh ELM 149 23 0 11 Mar 2024
Concept-aware Data Construction Improves In-context Learning of Language Models Michal Štefánik Marek Kadlcík Petr Sojka 92 1 0 08 Mar 2024
Exploring Continual Learning of Compositional Generalization in NLI Xiyan Fu Anette Frank CLL LRM 58 3 0 07 Mar 2024
Many-Objective Multi-Solution Transport Ziyue Li Tian Li Virginia Smith Jeff Bilmes Dinesh Manocha 85 3 0 06 Mar 2024
How does Architecture Influence the Base Capabilities of Pre-trained Language Models? A Case Study Based on FFN-Wider Transformer Models Xin Lu Yanyan Zhao Bing Qin 65 0 0 04 Mar 2024
Vanilla Transformers are Transfer Capability Teachers Xin Lu Yanyan Zhao Bing Qin MoE 55 0 0 04 Mar 2024
Fostering the Ecosystem of Open Neural Encoders for Portuguese with Albertina PT* Family Rodrigo Santos João Rodrigues Luís Gomes Joao Silva António Branco Henrique Lopes Cardoso T. Osório Bernardo Leite 82 8 0 04 Mar 2024
Predictions from language models for multiple-choice tasks are not robust under variation of scoring methods Polina Tsvilodub Hening Wang Sharon Grosch Michael Franke 82 9 0 01 Mar 2024
ATP: Enabling Fast LLM Serving via Attention on Top Principal Keys Yue Niu Saurav Prakash Salman Avestimehr 51 1 0 01 Mar 2024
FAC $^2$ E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition Xiaoqiang Wang Bang Liu Lingfei Wu 79 0 0 29 Feb 2024
Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress Ameya Prabhu Vishaal Udandarao Philip Torr Matthias Bethge Adel Bibi Samuel Albanie 93 3 0 29 Feb 2024
When does word order matter and when doesn't it? Xuanda Chen T. O'Donnell Siva Reddy 82 1 0 29 Feb 2024
Advancing Generative AI for Portuguese with Open Decoder Gervásio PT* Rodrigo Santos Joao Silva Luís Gomes João Rodrigues António Branco 92 10 0 29 Feb 2024
Acquiring Linguistic Knowledge from Multimodal Input Theodor Amariucai Alexander Scott Warstadt CLL 89 2 0 27 Feb 2024
FairBelief -- Assessing Harmful Beliefs in Language Models Mattia Setzu Marta Marchiori Manerba Pasquale Minervini Debora Nozza 55 0 0 27 Feb 2024
Sinkhorn Distance Minimization for Knowledge Distillation Xiao Cui Yulei Qin Yuting Gao Enwei Zhang Zihan Xu Tong Wu Ke Li Xing Sun Wen-gang Zhou Houqiang Li 82 8 0 27 Feb 2024
MAGPIE: Multi-Task Media-Bias Analysis Generalization for Pre-Trained Identification of Expressions Tomávs Horych Martin Wessel Jan Philip Wahle Terry Ruas Jerome Wassmuth André Greiner-Petter Akiko Aizawa Bela Gipp Timo Spinde 75 2 0 27 Feb 2024
HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination Tendency of LLMs Cem Uluoglakci T. Taşkaya-Temizel HILM 64 3 0 25 Feb 2024
Sparse MeZO: Less Parameters for Better Performance in Zeroth-Order LLM Fine-Tuning Yong Liu Zirui Zhu Chaoyu Gong Minhao Cheng Cho-Jui Hsieh Yang You MoE 81 23 0 24 Feb 2024
PEMT: Multi-Task Correlation Guided Mixture-of-Experts Enables Parameter-Efficient Transfer Learning Zhisheng Lin Han Fu Chenghao Liu Zhuo Li Jianling Sun MoE MoMe 47 6 0 23 Feb 2024
Balanced Data Sampling for Language Model Training with Clustering Yunfan Shao Linyang Li Zhaoye Fei Hang Yan Dahua Lin Xipeng Qiu 88 12 0 22 Feb 2024
Vygotsky Distance: Measure for Benchmark Task Similarity Maxim K. Surkov Ivan P. Yamshchikov 89 0 0 22 Feb 2024
Copilot Evaluation Harness: Evaluating LLM-Guided Software Programming Anisha Agarwal Aaron Chan Shubham Chandel Jinu Jang Shaun Miller Roshanak Zilouchian Moghaddam Yevhen Mohylevskyy Neel Sundaresan Michele Tufano ELM 59 17 0 22 Feb 2024
Beyond Probabilities: Unveiling the Misalignment in Evaluating Large Language Models Chenyang Lyu Minghao Wu Alham Fikri Aji ELM 61 14 0 21 Feb 2024
LongWanjuan: Towards Systematic Measurement for Long Text Quality Kai Lv Xiaoran Liu Qipeng Guo Hang Yan Conghui He Xipeng Qiu Dahua Lin 61 4 0 21 Feb 2024
HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts Hao Zhao Zihan Qiu Huijia Wu Zili Wang Zhaofeng He Jie Fu MoE 120 13 0 20 Feb 2024
Comparing Specialised Small and General Large Language Models on Text Classification: 100 Labelled Samples to Achieve Break-Even Performance Branislav Pecher Ivan Srba Maria Bielikova ALM 100 8 0 20 Feb 2024
Secure Federated Learning Across Heterogeneous Cloud and High-Performance Computing Resources -- A Case Study on Federated Fine-tuning of LLaMA 2 Zilinghan Li Shilan He Pranshu Chaturvedi Volodymyr V. Kindratenko Eliu A. Huerta Kibaek Kim Ravi K. Madduri FedML 78 3 0 19 Feb 2024
Head-wise Shareable Attention for Large Language Models Zouying Cao Yifei Yang Hai Zhao 59 4 0 19 Feb 2024
KMMLU: Measuring Massive Multitask Language Understanding in Korean Guijin Son Hanwool Albert Lee Sungdong Kim Seungone Kim Niklas Muennighoff Taekyoon Choi Cheonbok Park Kang Min Yoo Stella Biderman ALM RALM ELM 114 44 0 18 Feb 2024
LoRETTA: Low-Rank Economic Tensor-Train Adaptation for Ultra-Low-Parameter Fine-Tuning of Large Language Models Yifan Yang Jiajun Zhou Ngai Wong Zheng Zhang 73 8 0 18 Feb 2024
Turn Waste into Worth: Rectifying Top- $k$ Router of MoE Zhiyuan Zeng Qipeng Guo Zhaoye Fei Zhangyue Yin Yunhua Zhou Linyang Li Tianxiang Sun Hang Yan Dahua Lin Xipeng Qiu MoE MoMe 55 6 0 17 Feb 2024
Navigating the Dual Facets: A Comprehensive Evaluation of Sequential Memory Editing in Large Language Models Zihao Lin Mohammad Beigi Hongxuan Li Yufan Zhou Yuxiang Zhang Qifan Wang Wenpeng Yin Lifu Huang KELM 65 9 0 16 Feb 2024
Linear Transformers with Learnable Kernel Functions are Better In-Context Models Yaroslav Aksenov Nikita Balagansky Sofia Maria Lo Cicero Vaina Boris Shaposhnikov Alexey Gorbatovski Daniil Gavrilov KELM 70 5 0 16 Feb 2024
Squat: Quant Small Language Models on the Edge Xuan Shen Zhenglun Kong Zhenglun Kong Zhaoyang Han Changdi Yang ... Lei Lu Xuehang Guo Zhihao Shu Wei Niu Miriam Leeser MQ 127 22 0 16 Feb 2024
Inference to the Best Explanation in Large Language Models Dhairya Dalal Marco Valentino André Freitas Paul Buitelaar LRM ELM 94 3 0 16 Feb 2024
HiRE: High Recall Approximate Top- $k$ Estimation for Efficient LLM Inference Yashas Samaga Varun Yerram Chong You Srinadh Bhojanapalli Sanjiv Kumar Prateek Jain Praneeth Netrapalli 79 5 0 14 Feb 2024
Tandem Transformers for Inference Efficient LLMs S. AishwaryaP Pranav Ajit Nair Yashas Samaga Toby Boyd Sanjiv Kumar Prateek Jain Praneeth Netrapalli 71 6 0 13 Feb 2024
Bayesian Multi-Task Transfer Learning for Soft Prompt Tuning Haeju Lee Minchan Jeong SeYoung Yun Kee-Eung Kim AAML VPVLM 88 3 0 13 Feb 2024
Punctuation Restoration Improves Structure Understanding Without Supervision Junghyun Min Minho Lee Woochul Lee Yeonsoo Lee 155 1 0 13 Feb 2024
Differentially Private Zeroth-Order Methods for Scalable Large Language Model Finetuning Zhicheng Liu Jian Lou Wenxuan Bao Yihan Hu Baochun Li Zhan Qin K. Ren 122 10 0 12 Feb 2024
CPSDBench: A Large Language Model Evaluation Benchmark and Baseline for Chinese Public Security Domain Xin Tong Bo Jin Zhi Lin Binjun Wang Ting Yu Qiang Cheng ELM 72 0 0 11 Feb 2024
Efficient Stagewise Pretraining via Progressive Subnetworks Abhishek Panigrahi Nikunj Saunshi Kaifeng Lyu Sobhan Miryoosefi Sashank J. Reddi Satyen Kale Sanjiv Kumar 65 6 0 08 Feb 2024
Learning to Route Among Specialized Experts for Zero-Shot Generalization Mohammed Muqeeth Haokun Liu Yufan Liu Colin Raffel MoMe 95 38 0 08 Feb 2024
Dive into the Chasm: Probing the Gap between In- and Cross-Topic Generalization Andreas Waldis Yufang Hou Iryna Gurevych ELM 75 8 0 02 Feb 2024
When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards Norah A. Alzahrani H. A. Alyahya Sultan Yazeed Alnumay Muhtasim Tahmid Shaykhah Alsubaie ... Saleh Soltan Nathan Scales Marie-Anne Lachaux Samuel R. Bowman Haidar Khan ELM 133 80 0 01 Feb 2024
Evaluating Large Language Models for Generalization and Robustness via Data Compression Yucheng Li Yunhao Guo Frank Guerin Chenghua Lin ELM 92 6 0 01 Feb 2024
Can Large Language Models Understand Context? Yilun Zhu Joel Ruben Antony Moniz Shruti Bhargava Jiarui Lu Dhivya Piraviperumal Site Li Yuan-kang Zhang Hong-ye Yu Bo-Hsiang Tseng 89 26 0 01 Feb 2024
Combining the Strengths of Dutch Survey and Register Data in a Data Challenge to Predict Fertility (PreFer) E. Sivak Paulina Pankowska Adrienne Mendrik Tom Emery Javier Garcia-Bernardo ... Kasia Karpinska Angelica Maineri J. Mulder Malvina Nissim Gert Stulp 59 1 0 01 Feb 2024