v1v2v3 (latest)

SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems

2 May 2019

Amanpreet Singh

Papers citing "SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems"

50 / 1,500 papers shown

Title
The Impact of Language Adapters in Cross-Lingual Transfer for NLU Jenny Kunz Oskar Holmström 50 4 0 31 Jan 2024
X-PEFT: eXtremely Parameter-Efficient Fine-Tuning for Extreme Multi-Profile Scenarios Namju Kwak Taesup Kim MoE 31 0 0 29 Jan 2024
HiFT: A Hierarchical Full Parameter Fine-Tuning Strategy Yongkang Liu Yiqun Zhang Qian Li Tong Liu Shi Feng Daling Wang Yifei Zhang Hinrich Schütze 87 9 0 26 Jan 2024
Do LLMs Dream of Ontologies? Marco Bombieri Paolo Fiorini Simone Paolo Ponzetto M. Rospocher CLL 98 3 0 26 Jan 2024
Semantic Sensitivities and Inconsistent Predictions: Measuring the Fragility of NLI Models Erik Arakelyan Zhaoqi Liu Isabelle Augenstein AAML 145 12 0 25 Jan 2024
SpacTor-T5: Pre-training T5 Models with Span Corruption and Replaced Token Detection Ke Ye Heinrich Jiang Afshin Rostamizadeh Ayan Chakrabarti Giulia DeSalvo Jean-François Kagy Lazaros Karydas Gui Citovsky Sanjiv Kumar 64 0 0 24 Jan 2024
ULTRA: Unleash LLMs' Potential for Event Argument Extraction through Hierarchical Modeling and Pair-wise Self-Refinement Xinliang Frederick Zhang Carter Blum Temma Choji Shalin S Shah Alakananda Vempala 124 6 0 24 Jan 2024
Enhancing In-context Learning via Linear Probe Calibration Momin Abbas Yi Zhou Parikshit Ram Nathalie Baracaldo Horst Samulowitz Theodoros Salonidis Tianyi Chen 114 14 0 22 Jan 2024
Cheap Learning: Maximising Performance of Language Models for Social Data Science Using Minimal Data Leonardo Castro-Gonzalez Yi-Ling Chung Hannak Rose Kirk John Francis Angus R. Williams Pica Johansson Jonathan Bright 69 1 0 22 Jan 2024
Instructional Fingerprinting of Large Language Models Lyne Tchapmi Fei Wang Mingyu Derek Ma Pang Wei Koh Chaowei Xiao Muhao Chen WaLM 67 33 0 21 Jan 2024
SAPT: A Shared Attention Framework for Parameter-Efficient Continual Learning of Large Language Models Weixiang Zhao Shilong Wang Yulin Hu Yanyan Zhao Bing Qin Xuanyu Zhang Qing Yang Dongliang Xu Wanxiang Che KELM CLL 97 16 0 16 Jan 2024
A Study on Training and Developing Large Language Models for Behavior Tree Generation Fu Li Xueying Wang Bin Li Yunlong Wu Yanzhen Wang Xiaodong Yi 67 5 0 16 Jan 2024
Assessing Large Language Models in Mechanical Engineering Education: A Study on Mechanics-Focused Conceptual Understanding Jie Tian Jixin Hou Zihao Wu Peng Shu Zheng Liu ... Ning Liu Xianyan Chen Keke Tang Tianming Liu Xianqiao Wang ELM AI4CE 75 9 0 13 Jan 2024
PUB: A Pragmatics Understanding Benchmark for Assessing LLMs' Pragmatics Capabilities S. Sravanthi Meet Doshi Tankala Pavan Kalyan Rudra Murthy Pushpak Bhattacharyya Raj Dabre 70 29 0 13 Jan 2024
Batch-ICL: Effective, Efficient, and Order-Agnostic In-Context Learning Kaiyi Zhang Ang Lv Yuhan Chen Hansen Ha Tao Xu Rui Yan 97 21 0 12 Jan 2024
MERA: A Comprehensive LLM Evaluation in Russian Alena Fenogenova Artem Chervyakov Nikita Martynov Anastasia Kozlova Maria Tikhonova ... Nikita Savushkin Polina Mikhailova Denis Dimitrov Alexander Panchenko Sergey Markov ELM 97 12 0 09 Jan 2024
Setting the Record Straight on Transformer Oversmoothing G. Dovonon M. Bronstein Matt J. Kusner 88 6 0 09 Jan 2024
The Butterfly Effect of Altering Prompts: How Small Changes and Jailbreaks Affect Large Language Model Performance A. Salinas Fred Morstatter 91 55 0 08 Jan 2024
InFoBench: Evaluating Instruction Following Ability in Large Language Models Yiwei Qin Kaiqiang Song Yebowen Hu Wenlin Yao Sangwoo Cho Xiaoyang Wang Xuansheng Wu Fei Liu Pengfei Liu Dong Yu ELM 104 51 0 07 Jan 2024
DIALIGHT: Lightweight Multilingual Development and Evaluation of Task-Oriented Dialogue Systems with Large Language Models Songbo Hu Xiaobin Wang Moy Yuan Anna Korhonen Ivan Vulić 87 4 0 04 Jan 2024
Understanding LLMs: A Comprehensive Overview from Training to Inference Yi-Hsueh Liu Haoyang He Tianle Han Xu-Yao Zhang Mengyuan Liu ... Xintao Hu Tuo Zhang Ning Qiang Tianming Liu Bao Ge SyDa 151 77 0 04 Jan 2024
DocLLM: A layout-aware generative language model for multimodal document understanding Dongsheng Wang Natraj Raman Mathieu Sibue Zhiqiang Ma Petr Babkin Simerjot Kaur Yulong Pei Armineh Nourbakhsh Xiaomo Liu VLM 100 62 0 31 Dec 2023
PanGu- $π$ : Enhancing Language Model Architectures via Nonlinearity Compensation Yunhe Wang Hanting Chen Yehui Tang Tianyu Guo Kai Han ... Qinghua Xu Qun Liu Jun Yao Chao Xu Dacheng Tao 128 20 0 27 Dec 2023
Task Contamination: Language Models May Not Be Few-Shot Anymore Changmao Li Jeffrey Flanigan 173 104 0 26 Dec 2023
Prompt Valuation Based on Shapley Values Hanxi Liu Xiaokai Mao Haocheng Xia Jian Lou Jinfei Liu 66 7 0 24 Dec 2023
ZO-AdaMU Optimizer: Adapting Perturbation by the Momentum and Uncertainty in Zeroth-order Optimization Shuoran Jiang Qingcai Chen Youcheng Pan Yang Xiang Yukang Lin Xiangping Wu Chuanyi Liu Xiaobao Song ODL 75 15 0 23 Dec 2023
T-Eval: Evaluating the Tool Utilization Capability of Large Language Models Step by Step Zehui Chen Weihua Du Wenwei Zhang Kuikun Liu Jiangning Liu ... Jingming Zhuo Songyang Zhang Dahua Lin Kai-xiang Chen Feng Zhao LLMAG ELM 117 32 0 21 Dec 2023
D3Former: Jointly Learning Repeatable Dense Detectors and Feature-enhanced Descriptors via Saliency-guided Transformer Junjie Gao Pengfei Wang Qiujie Dong Qiong Zeng Shiqing Xin Caiming Zhang 56 0 0 20 Dec 2023
ALMANACS: A Simulatability Benchmark for Language Model Explainability Edmund Mills Shiye Su Stuart J. Russell Scott Emmons 164 9 0 20 Dec 2023
Disentangling continuous and discrete linguistic signals in transformer-based sentence embeddings Vivi Nastase Paola Merlo 102 0 0 18 Dec 2023
Retrieval-Augmented Generation for Large Language Models: A Survey Yunfan Gao Yun Xiong Xinyu Gao Kangxiang Jia Jinliu Pan Yuxi Bi Yi Dai Jiawei Sun Meng Wang Haofen Wang 3DV RALM 288 1,840 1 18 Dec 2023
Paloma: A Benchmark for Evaluating Language Model Fit Ian H. Magnusson Akshita Bhagia Valentin Hofmann Luca Soldaini A. Jha ... Iz Beltagy Hanna Hajishirzi Noah A. Smith Kyle Richardson Jesse Dodge 180 27 0 16 Dec 2023
Catwalk: A Unified Language Model Evaluation Framework for Many Datasets Dirk Groeneveld Anas Awadalla Iz Beltagy Akshita Bhagia Ian H. Magnusson Hao Peng Oyvind Tafjord Pete Walsh Kyle Richardson Jesse Dodge 143 1 0 15 Dec 2023
Grammatical information in BERT sentence embeddings as two-dimensional arrays Vivi Nastase Paola Merlo 112 6 0 15 Dec 2023
GSQA: An End-to-End Model for Generative Spoken Question Answering Min-Han Shih Ho-Lam Chung Yu-Chi Pai Ming-Hao Hsu Guan-Ting Lin Shang-Wen Li Hung-yi Lee ELM AuLLM 86 2 0 15 Dec 2023
Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision Collin Burns Pavel Izmailov Jan Hendrik Kirchner Bowen Baker Leo Gao ... Adrien Ecoffet Manas Joglekar Jan Leike Ilya Sutskever Jeff Wu ELM 129 297 0 14 Dec 2023
Labels Need Prompts Too: Mask Matching for Natural Language Understanding Tasks Bo Li Wei Ye Quan-ding Wang Wen Zhao Shikun Zhang VLM 72 2 0 14 Dec 2023
Quantifying Divergence for Human-AI Collaboration and Cognitive Trust Muge Kural Ali Gebesçe T. Chubakov Gözde Gül Sahin FedML 43 0 0 14 Dec 2023
Mutual Enhancement of Large and Small Language Models with Cross-Silo Knowledge Transfer Yongheng Deng Ziqing Qiao Ju Ren Yang Liu Yaoxue Zhang 96 11 0 10 Dec 2023
Two Directions for Clinical Data Generation with Large Language Models: Data-to-Label and Label-to-Data Rumeng Li Xun Wang Hong Yu LM&MA 119 26 0 09 Dec 2023
CLadder: Assessing Causal Reasoning in Language Models Zhijing Jin Yuen Chen Felix Leeb Luigi Gresele Ojasv Kamal ... Kevin Blin Fernando Gonzalez Adauto Max Kleiman-Weiner Mrinmaya Sachan Bernhard Schölkopf ReLM ELM LRM 112 79 0 07 Dec 2023
Customizable Combination of Parameter-Efficient Modules for Multi-Task Learning Haowen Wang Tao Sun Cong Fan Jinjie Gu MoE 62 7 0 06 Dec 2023
MUFFIN: Curating Multi-Faceted Instructions for Improving Instruction-Following Renze Lou Kai Zhang Jian Xie Yuxuan Sun Janice Ahn Hanzi Xu Yu Su Wenpeng Yin 111 30 0 05 Dec 2023
Can training neural language models on a curriculum with developmentally plausible data improve alignment with human reading behavior? Aryaman Chobey Oliver Smith Anzi Wang Grusha Prasad 123 5 0 30 Nov 2023
TaskBench: Benchmarking Large Language Models for Task Automation Yongliang Shen Kaitao Song Xu Tan Wenqi Zhang Kan Ren Siyu Yuan Weiming Lu Dongsheng Li Yueting Zhuang 115 66 0 30 Nov 2023
AlignBench: Benchmarking Chinese Alignment of Large Language Models Xiao Liu Xuanyu Lei Sheng-Ping Wang Yue Huang Zhuoer Feng ... Hongning Wang Jing Zhang Minlie Huang Yuxiao Dong Jie Tang ELM LM&MA ALM 187 50 0 30 Nov 2023
ArcMMLU: A Library and Information Science Benchmark for Large Language Models Shitou Zhang Zuchao Li Xingshen Liu Liming Yang Ping Wang ELM 49 0 0 30 Nov 2023
Power Hungry Processing: Watts Driving the Cost of AI Deployment? Sasha Luccioni Yacine Jernite Emma Strubell 95 193 0 28 Nov 2023
LIMIT: Less Is More for Instruction Tuning Across Evaluation Paradigms Aditi Jha Sam Havens Jeremey Dohmann Alex Trott Jacob P. Portes ALM 50 11 0 22 Nov 2023
GAIA: a benchmark for General AI Assistants Grégoire Mialon Clémentine Fourrier Craig Swift Thomas Wolf Yann LeCun Thomas Scialom AI4MH ALM ELM RALM 96 186 0 21 Nov 2023