v1v2v3 (latest)

SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

2 May 2019

Amanpreet Singh

Papers citing "SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems"

50 / 1,500 papers shown

Title
Merino: Entropy-driven Design for Generative Language Models on IoT Devices Youpeng Zhao Ming Lin Huadong Tang Qiang Wu Jun Wang 142 0 0 28 Jan 2025
Decentralized Low-Rank Fine-Tuning of Large Language Models Sajjad Ghiasvand Mahnoosh Alizadeh Ramtin Pedarsani ALM 152 2 0 26 Jan 2025
CS-Eval: A Comprehensive Large Language Model Benchmark for CyberSecurity Zhengmin Yu Jiutian Zeng Siyi Chen Wenhan Xu Dandan Xu Xiangyu Liu Zonghao Ying Nan Wang Yuan Zhang Min Yang ELM 248 2 0 20 Jan 2025
Rethinking Evaluation of Sparse Autoencoders through the Representation of Polysemous Words Gouki Minegishi Hiroki Furuta Yusuke Iwasawa Y. Matsuo 106 3 0 09 Jan 2025
Clinical Insights: A Comprehensive Review of Language Models in Medicine Nikita Neveditsin Pawan Lingras V. Mago LM&MA 113 5 0 08 Jan 2025
Personalized Graph-Based Retrieval for Large Language Models Steven Au Cameron J. Dimacali Ojasmitha Pedirappagari Namyong Park Franck Dernoncourt Yu Wang Nikos Kanakaris Hanieh Deilamsalehy Ryan Rossi Nesreen K. Ahmed RALM 107 2 0 04 Jan 2025
AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning Yehonathan Refael Jonathan Svirsky Boris Shustin Wasim Huleihel Ofir Lindenbaum 101 4 0 31 Dec 2024
GPT or BERT: why not both? Lucas Georges Gabriel Charpentier David Samuel 156 5 0 31 Dec 2024
BabyHGRN: Exploring RNNs for Sample-Efficient Training of Language Models Patrick Haller Jonas Golde Alan Akbik 127 0 0 20 Dec 2024
Bag of Tricks for Multimodal AutoML with Image, Text, and Tabular Data Zhiqiang Tang Zihan Zhong Tong He Gerald Friedland 166 1 0 19 Dec 2024
FineGates: LLMs Finetuning with Compression using Stochastic Gates Jonathan Svirsky Yehonathan Refael Ofir Lindenbaum 118 1 0 17 Dec 2024
QUENCH: Measuring the gap between Indic and Non-Indic Contextual General Reasoning in LLMs Mohammad Aflah Khan Neemesh Yadav Sarah Masud Md. Shad Akhtar 167 0 0 16 Dec 2024
AutoReason: Automatic Few-Shot Reasoning Decomposition Arda Sevinc A. Gumus ReLM LRM 90 0 0 09 Dec 2024
Findings of the Second BabyLM Challenge: Sample-Efficient Pretraining on Developmentally Plausible Corpora Michael Y. Hu Aaron Mueller Candace Ross Adina Williams Tal Linzen Chengxu Zhuang Ryan Cotterell Leshem Choshen Alex Warstadt Ethan Gotlieb Wilcox 174 14 0 06 Dec 2024
The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? Sourav Banerjee Ayushi Agarwal Eishkaran Singh ELM 105 3 0 02 Dec 2024
SailCompass: Towards Reproducible and Robust Evaluation for Southeast Asian Languages Jia Guo Longxu Dou Guangtao Zeng Stanley Kok Wei Lu Qian Liu ELM LRM 124 2 0 02 Dec 2024
AI Benchmarks and Datasets for LLM Evaluation Todor Ivanov Valeri Penchev 157 2 0 02 Dec 2024
ChemTEB: Chemical Text Embedding Benchmark, an Overview of Embedding Models Performance & Efficiency on a Specific Domain Ali Shiraee Kasmaee Mohammad Khodadad Mohammad Arshi Saloot Nick Sherck Stephen Dokas H. Mahyar Soheila Samiee ELM 634 2 0 30 Nov 2024
INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge Angelika Romanou Negar Foroutan Anna Sotnikova Zeming Chen Sree Harsha Nelaturu ... Mike Zhang Imanol Schlag Marzieh Fadaee Sara Hooker Antoine Bosselut ELM 181 8 0 29 Nov 2024
Streamlining Prediction in Bayesian Deep Learning Marcus Klasson Talal Alrawajfeh Mikko Heikkilä Martin Trapp UQCV BDL 232 2 0 27 Nov 2024
Dynamic Self-Distillation via Previous Mini-batches for Fine-tuning Small Language Models Y. Fu Yin Yu Xiaotian Han Runchao Li Xianxuan Long Haotian Yu Pan Li SyDa 174 0 0 25 Nov 2024
When Babies Teach Babies: Can student knowledge sharing outperform Teacher-Guided Distillation on small datasets? Srikrishna Iyer FedML 167 0 0 25 Nov 2024
BayLing 2: A Multilingual Large Language Model with Efficient Language Alignment Shaolei Zhang Kehao Zhang Qingkai Fang Shoutao Guo Yan Zhou Xiaodong Liu Yang Feng ALM 122 2 0 25 Nov 2024
BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games Davide Paglieri Bartłomiej Cupiał Samuel Coward Ulyana Piterbarg Maciej Wolczyk ... Lerrel Pinto Rob Fergus Jakob Foerster Jack Parker-Holder Tim Rocktaschel LLMAG LRM 208 22 0 20 Nov 2024
MetaLA: Unified Optimal Linear Approximation to Softmax Attention Map Yuhong Chou Man Yao Kexin Wang Yuqi Pan Ruijie Zhu Yiran Zhong Yu Qiao Jian Wu Bo Xu Guoqi Li 93 7 0 16 Nov 2024
Robust and Efficient Fine-tuning of LLMs with Bayesian Reparameterization of Low-Rank Adaptation Ayan Sengupta Vaibhav Seth Arinjay Pathak Natraj Raman Sriram Gopalakrishnan Tanmoy Chakraborty BDL 53 2 0 07 Nov 2024
PhDGPT: Introducing a psychometric and linguistic dataset about how large language models perceive graduate students and professors in psychology Edoardo Sebastiano De Duro Enrique Taietta Riccardo Improta Massimo Stella AI4CE 84 0 0 06 Nov 2024
LASER: Attention with Exponential Transformation Sai Surya Duvvuri Inderjit Dhillon 50 1 0 05 Nov 2024
Visual Fourier Prompt Tuning Runjia Zeng Cheng Han Qifan Wang Chunshu Wu Tong Geng Lifu Huang Ying Nian Wu Dongfang Liu VPVLM VLM 124 8 0 02 Nov 2024
From Babble to Words: Pre-Training Language Models on Continuous Streams of Phonemes Zébulon Goriely Richard Diehl Martinez Andrew Caines Lisa Beinborn P. Buttery CLL 106 5 0 30 Oct 2024
Choosy Babies Need One Coach: Inducing Mode-Seeking Behavior in BabyLlama with Reverse KL Divergence Shaozhen Shi Yevgen Matusevych Malvina Nissim 79 0 0 29 Oct 2024
Learning and Unlearning of Fabricated Knowledge in Language Models Chen Sun Nolan Miller A. Zhmoginov Max Vladymyrov Mark Sandler KELM MU 60 1 0 29 Oct 2024
Are BabyLMs Second Language Learners? Lukas Edman Lisa Bylinina Faeze Ghorbanpour Alexander Fraser 61 0 0 28 Oct 2024
On the Crucial Role of Initialization for Matrix Factorization Bingcong Li Liang Zhang Aryan Mokhtari Niao He 163 6 0 24 Oct 2024
A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs A. S. Rawat Veeranjaneyulu Sadhanala Afshin Rostamizadeh Ayan Chakrabarti Wittawat Jitkrittum ... Rakesh Shivanna Sashank J. Reddi A. Menon Rohan Anil Sanjiv Kumar 141 3 0 24 Oct 2024
Task Calibration: Calibrating Large Language Models on Inference Tasks Yingjie Li Yun Luo Xiaotian Xie Yue Zhang LRM 57 0 0 24 Oct 2024
Parameter-Efficient Fine-Tuning in Large Models: A Survey of Methodologies Liwen Wang Sheng Chen Linnan Jiang Shu Pan Runze Cai Sen Yang Fei Yang 174 7 0 24 Oct 2024
Benchmarking Foundation Models on Exceptional Cases: Dataset Creation and Validation Suho Kang Jungyang Park Joonseo Ha SoMin Kim JinHyeong Kim Subeen Park Kyungwoo Song LRM 58 0 0 23 Oct 2024
Exploring Curriculum Learning for Vision-Language Tasks: A Study on Small-Scale Multimodal Training Rohan Saha Abrar Fahim Alona Fyshe Alex Murphy 50 0 0 20 Oct 2024
From Test-Taking to Test-Making: Examining LLM Authoring of Commonsense Assessment Items Melissa Roemmele Andrew S. Gordon 56 2 0 18 Oct 2024
Implicit Regularization of Sharpness-Aware Minimization for Scale-Invariant Problems Bingcong Li Liang Zhang Niao He 93 8 0 18 Oct 2024
Speciesism in Natural Language Processing Research Masashi Takeshita Rafal Rzepka 58 2 0 18 Oct 2024
Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models Mazda Moayeri Vidhisha Balachandran Varun Chandrasekaran Safoora Yousefi Thomas Fel Soheil Feizi Besmira Nushi Neel Joshi Vibhav Vineet 71 5 0 17 Oct 2024
VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks Shailaja Keyur Sampat Mutsumi Nakamura Shankar Kailas Kartik Aggarwal Mandy Zhou Yezhou Yang Chitta Baral MLLM CoGe ReLM VLM LRM 78 0 0 17 Oct 2024
LAR-ECHR: A New Legal Argument Reasoning Task and Dataset for Cases of the European Court of Human Rights Odysseas S. Chlapanis D. Galanis Ion Androutsopoulos AILaw ELM 50 1 0 17 Oct 2024
From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition Qiyuan Yang Pengda Wang Luke D. Plonsky Frederick L. Oswald Hanjie Chen ELM 77 2 0 17 Oct 2024
Identifying Task Groupings for Multi-Task Learning Using Pointwise V-Usable Information Yingya Li Timothy A. Miller Steven Bethard G. Savova 75 2 0 16 Oct 2024
Model Balancing Helps Low-data Training and Fine-tuning Zihang Liu Yihan Hu Tianyu Pang Yefan Zhou Pu Ren Yaoqing Yang 79 7 0 16 Oct 2024
Table-LLM-Specialist: Language Model Specialists for Tables using Iterative Generator-Validator Fine-tuning Junjie Xing Yeye He Mengyu Zhou Haoyu Dong Shi Han Dongmei Zhang S. Chaudhuri LMTD 67 2 0 16 Oct 2024
Communication-Efficient and Tensorized Federated Fine-Tuning of Large Language Models Sajjad Ghiasvand Yifan Yang Zhiyu Xue Mahnoosh Alizadeh Zheng Zhang Ramtin Pedarsani FedML 168 5 0 16 Oct 2024