v1v2v3 (latest)

Neural Network Acceptability Judgments

31 May 2018

Alex Warstadt

Amanpreet Singh

Samuel R. Bowman

ArXiv (abs)PDF HTML

Papers citing "Neural Network Acceptability Judgments"

50 / 894 papers shown

Title
Improving the Trainability of Deep Neural Networks through Layerwise Batch-Entropy Regularization David Peer Bart Keulen Sebastian Stabinger J. Piater A. Rodríguez-Sánchez 44 6 0 01 Aug 2022
Few-shot Adaptation Works with UnpredicTable Data Jun Shern Chan Michael Pieler Jonathan Jao Jérémy Scheurer Ethan Perez 95 5 0 01 Aug 2022
MoEC: Mixture of Expert Clusters Yuan Xie Shaohan Huang Tianyu Chen Furu Wei MoE 91 11 0 19 Jul 2022
ELECTRA is a Zero-Shot Learner, Too Shiwen Ni Hung-Yu kao 67 9 0 17 Jul 2022
Forming Trees with Treeformers Nilay Patel Jeffrey Flanigan AI4CE 83 3 0 14 Jul 2022
Gender Biases and Where to Find Them: Exploring Gender Bias in Pre-Trained Transformer-based Language Models Using Movement Pruning Przemyslaw K. Joniak Akiko Aizawa 45 28 0 06 Jul 2022
Betti numbers of attention graphs is all you really need Laida Kushnareva D. Piontkovski Irina Piontkovskaya GNN 47 2 0 05 Jul 2022
Language model compression with weighted low-rank factorization Yen-Chang Hsu Ting Hua Sung-En Chang Qiang Lou Yilin Shen Hongxia Jin 73 109 0 30 Jun 2022
The Topological BERT: Transforming Attention into Topology for Natural Language Processing Ilan Perez Raphael Reinauer 57 17 0 30 Jun 2022
Knowledge Distillation of Transformer-based Language Models Revisited Chengqiang Lu Jianwei Zhang Yunfei Chu Zhengyu Chen Jingren Zhou Leilei Gan Haiqing Chen Hongxia Yang VLM 98 11 0 29 Jun 2022
PLATON: Pruning Large Transformer Models with Upper Confidence Bound of Weight Importance Qingru Zhang Simiao Zuo Chen Liang Alexander Bukharin Pengcheng He Weizhu Chen T. Zhao 81 80 0 25 Jun 2022
MVP: Multi-task Supervised Pre-training for Natural Language Generation Tianyi Tang Junyi Li Wayne Xin Zhao Ji-Rong Wen 120 24 0 24 Jun 2022
Unified-IO: A Unified Model for Vision, Language, and Multi-Modal Tasks Jiasen Lu Christopher Clark Rowan Zellers Roozbeh Mottaghi Aniruddha Kembhavi ObjD VLM MLLM 163 412 0 17 Jun 2022
Language with Vision: a Study on Grounded Word and Sentence Embeddings Hassan Shahmohammadi Maria Heitmeier Elnaz Shafaei-Bajestan Hendrik P. A. Lensch Harald Baayen 74 10 0 17 Jun 2022
Write and Paint: Generative Vision-Language Models are Unified Modal Learners Shizhe Diao Wangchunshu Zhou Xinsong Zhang Jiawei Wang MLLM AI4CE 95 17 0 15 Jun 2022
LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer Learning Yi-Lin Sung Jaemin Cho Joey Tianyi Zhou VLM 99 246 0 13 Jun 2022
Language Models are General-Purpose Interfaces Y. Hao Haoyu Song Li Dong Shaohan Huang Zewen Chi Wenhui Wang Shuming Ma Furu Wei MLLM 76 102 0 13 Jun 2022
Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization Hang Hua Xingjian Li Dejing Dou Chengzhong Xu Jiebo Luo 94 15 0 12 Jun 2022
pFL-Bench: A Comprehensive Benchmark for Personalized Federated Learning Daoyuan Chen Dawei Gao Weirui Kuang Yaliang Li Bolin Ding FedML 114 64 0 08 Jun 2022
Exploring Cross-lingual Textual Style Transfer with Large Multilingual Language Models Daniil Moskovskiy Daryna Dementieva Alexander Panchenko 60 3 0 05 Jun 2022
ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers Z. Yao Reza Yazdani Aminabadi Minjia Zhang Xiaoxia Wu Conglong Li Yuxiong He VLM MQ 174 484 0 04 Jun 2022
Extreme Compression for Pre-trained Transformers Made Simple and Efficient Xiaoxia Wu Z. Yao Minjia Zhang Conglong Li Yuxiong He MQ 65 31 0 04 Jun 2022
BayesFormer: Transformer with Uncertainty Estimation Karthik Abinav Sankararaman Sinong Wang Han Fang UQCV BDL 60 11 0 02 Jun 2022
Task-Specific Expert Pruning for Sparse Mixture-of-Experts Tianyu Chen Shaohan Huang Yuan Xie Binxing Jiao Daxin Jiang Haoyi Zhou Jianxin Li Furu Wei MoE 91 42 0 01 Jun 2022
VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models Wangchunshu Zhou Yan Zeng Shizhe Diao Xinsong Zhang CoGe VLM 97 13 0 30 May 2022
E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language Understanding and Generation Qihuang Zhong Liang Ding Juhua Liu Bo Du Dacheng Tao 111 27 0 30 May 2022
MiniDisc: Minimal Distillation Schedule for Language Model Compression Chen Zhang Yang Yang Qifan Wang Jiahao Liu Jingang Wang Wei Wu Dawei Song 79 4 0 29 May 2022
StereoKG: Data-Driven Knowledge Graph Construction for Cultural Knowledge and Stereotypes Awantee V. Deshpande Dana Ruiter Marius Mosbach Dietrich Klakow 37 12 0 27 May 2022
Federated Split BERT for Heterogeneous Text Classification Zhengyang Li Shijing Si Jianzong Wang Jing Xiao FedML 89 21 0 26 May 2022
Eliciting and Understanding Cross-Task Skills with Task-Level Mixture-of-Experts Qinyuan Ye Juan Zha Xiang Ren MoE 73 14 0 25 May 2022
BITE: Textual Backdoor Attacks with Iterative Trigger Injection Jun Yan Vansh Gupta Xiang Ren SILM 129 51 0 25 May 2022
Train Flat, Then Compress: Sharpness-Aware Minimization Learns More Compressible Models Clara Na Sanket Vaibhav Mehta Emma Strubell 114 20 0 25 May 2022
Gradient-Based Constrained Sampling from Language Models Sachin Kumar Biswajit Paria Yulia Tsvetkov BDL 99 57 0 25 May 2022
Linear Connectivity Reveals Generalization Strategies Jeevesh Juneja Rachit Bansal Kyunghyun Cho João Sedoc Naomi Saphra 329 48 0 24 May 2022
ATTEMPT: Parameter-Efficient Multi-task Tuning via Attentional Mixtures of Soft Prompts Akari Asai Mohammadreza Salehi Matthew E. Peters Hannaneh Hajishirzi 192 102 0 24 May 2022
Diverse Lottery Tickets Boost Ensemble from a Single Pretrained Model Sosuke Kobayashi Shun Kiyono Jun Suzuki Kentaro Inui MoMe 77 9 0 24 May 2022
On the Role of Bidirectionality in Language Model Pre-Training Mikel Artetxe Jingfei Du Naman Goyal Luke Zettlemoyer Ves Stoyanov 200 17 0 24 May 2022
Outliers Dimensions that Disrupt Transformers Are Driven by Frequency Giovanni Puccetti Anna Rogers Aleksandr Drozd F. Dell’Orletta 165 45 0 23 May 2022
Instruction Induction: From Few Examples to Natural Language Task Descriptions Or Honovich Uri Shaham Samuel R. Bowman Omer Levy ELM LRM 280 146 0 22 May 2022
Calibration of Natural Language Understanding Models with Venn--ABERS Predictors Patrizio Giovannotti 126 7 0 21 May 2022
Acceptability Judgements via Examining the Topology of Attention Maps D. Cherniavskii Eduard Tulchinskii Vladislav Mikhailov Irina Proskurina Laida Kushnareva Ekaterina Artemova S. Barannikov Irina Piontkovskaya D. Piontkovski Evgeny Burnaev 826 20 0 19 May 2022
PromptDA: Label-guided Data Augmentation for Prompt-based Few-shot Learners Canyu Chen Kai Shu VLM 97 8 0 18 May 2022
Exploiting Social Media Content for Self-Supervised Style Transfer Dana Ruiter Thomas Kleinbauer C. España-Bonet Josef van Genabith Dietrich Klakow 85 2 0 18 May 2022
When to Use Multi-Task Learning vs Intermediate Fine-Tuning for Pre-Trained Encoder Transfer Learning Orion Weller Kevin Seppi Matt Gardner 62 23 0 17 May 2022
A Precis of Language Models are not Models of Language Csaba Veres 81 3 0 16 May 2022
Assessing the Limits of the Distributional Hypothesis in Semantic Spaces: Trait-based Relational Knowledge and the Impact of Co-occurrences Mark Anderson Jose Camacho-Collados 69 0 0 16 May 2022
Sibylvariant Transformations for Robust Text Classification Fabrice Harel-Canada Muhammad Ali Gulzar Nanyun Peng Miryung Kim AAML VLM 78 4 0 10 May 2022
So Different Yet So Alike! Constrained Unsupervised Text Style Transfer Abhinav Ramesh Kashyap Devamanyu Hazarika Min-Yen Kan Roger Zimmermann Soujanya Poria GAN 83 14 0 09 May 2022
Mixed-effects transformers for hierarchical adaptation Julia White Noah D. Goodman Robert D. Hawkins 46 2 0 03 May 2022
Adaptable Adapters N. Moosavi Quentin Delfosse Kristian Kersting Iryna Gurevych 99 21 0 03 May 2022